使用python内建的pickle序列化模块进行二进制格式操作是存储数据(也称序列化)最高效最方便的方式之一。pandas拥有to_pickle方法可以将数据以pickle格式写入硬盘
1 | df = pd.read_csv('/Users/roarboil/Desktop/1.csv') |
由于pickle无法保证长期有效性,它仅被推荐作为短期的存储格式
使用HDF5格式
HDF5用于存储大量的科学数组数据。HDF表示分层数据格式,每个HDF5文件可以存储多个数据集并支持元数据。HDF5适合处理不适合在内存中存储的超大数据,可以让你高效读写大型数组的一小块。
具体事例不再给出
读取Microsoft Excel文件
pandas支持使用ExcelFile类和pandas.read_excel函数来读取存储在excel中的表格型数据,使用附加包xlrd和openpyxl分别读取xls和xlsx文件
1 | frame = pd.read_excel('/Users/roarboil/Desktop/kkk.xlsx','Sheet1') |
如果要想将pandas数据写入到Excel格式中,必须先生成一个ExcelWriter然后使用pandas对象的to_excel方法将数据写入
1 | writer = pd.ExcelWriter('/Users/roarboil/Desktop/test.xlsx') |