我在用熊猫。我试图从一个大文件中读入一列名字。这个文件总共是35GBs,这让我的内核死掉了。所以我只想读一篇专栏文章。然后我想要“块”这个数据,这样内核就不会死。由此,我需要得到每个名字的总和,并找到计数最高的名字。以下是有用的:
import pandas as pd
data = pd.read_csv("/Users/Desktop/EQR_Data/EQR_Transactions_1.csv", low_memory=False)
要从主文件导入的列名:
'seller_company_name'
Tags:
有时候你最好只用命令行
如果您可以访问类unix的环境,那么grep/sed/awk/cut就是为这个环境构建的,因为它们处理流
见here for an example
另一种方法是拆分csv并对其进行批处理(以“,”分隔第一个零索引列)
要只在一列中读取,请使用关键字
usecols
:然后您可以
groupby
卖家名称:在grpd.组然后是一个dict,其中包含每个卖方的发生索引列表。把它变成一个有以下列表长度的dict:
相关问题 更多 >
编程相关推荐