从更大的fi分析一列

2条回答

网友

1楼 · 编辑于 2024-10-02 00:38:00

有时候你最好只用命令行

如果您可以访问类unix的环境，那么grep/sed/awk/cut就是为这个环境构建的，因为它们处理流

另一种方法是拆分csv并对其进行批处理（以“，”分隔第一个零索引列）

cat some.csv | cut -d, -f1 | sort | uniq -c

网友

2楼 · 编辑于 2024-10-02 00:38:00

要只在一列中读取，请使用关键字usecols：

data = pd.read_csv("/Users/Desktop/EQR_Data/EQR_Transactions_1.csv", usecols=['seller_company_name'])

然后您可以groupby卖家名称：

grpd = df.groupby('seller_company_name')

在grpd.组然后是一个dict，其中包含每个卖方的发生索引列表。把它变成一个有以下列表长度的dict：

result = {d: len(grpd.groups[d]) for d in grpd.groups}