二进制格式

使用python内建的pickle序列化模块进行二进制格式操作是存储数据(也称序列化)最高效最方便的方式之一。pandas拥有to_pickle方法可以将数据以pickle格式写入硬盘

1
2
df = pd.read_csv('/Users/roarboil/Desktop/1.csv')
df.to_pickle('/Users/roarboil/Desktop/frame_pickle')

由于pickle无法保证长期有效性,它仅被推荐作为短期的存储格式

使用HDF5格式

HDF5用于存储大量的科学数组数据。HDF表示分层数据格式,每个HDF5文件可以存储多个数据集并支持元数据。HDF5适合处理不适合在内存中存储的超大数据,可以让你高效读写大型数组的一小块。

具体事例不再给出

读取Microsoft Excel文件

pandas支持使用ExcelFile类和pandas.read_excel函数来读取存储在excel中的表格型数据,使用附加包xlrd和openpyxl分别读取xls和xlsx文件

1
2
frame = pd.read_excel('/Users/roarboil/Desktop/kkk.xlsx','Sheet1')
print(frame)

如果要想将pandas数据写入到Excel格式中,必须先生成一个ExcelWriter然后使用pandas对象的to_excel方法将数据写入

1
2
3
writer = pd.ExcelWriter('/Users/roarboil/Desktop/test.xlsx')
frame.to_excel(writer,'Sheet1') #frame是包含数据的dataframe
writer.save()
Author: YihangBao
Link: https://roarboil.github.io/2019/09/13/bin/
Copyright Notice: All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.