python3.6：比较两个大的gzip csv文件并获取差异记录

2024-10-03 06:31:58 发布

男 | 程序猿一只，喜欢编程写python代码。

我有两个gzip压缩的csv文件IMFBOP2017_1.csv.gz和{}，两个文件中的列相同，即"Location, Indicator, Measure, Unit, Frequency, Date"。在

总行数6000多万

我想比较IMFBOP2017_1中不存在的IMFBOP2017_1的文件和显示行。在

我的计划是将这两个文件导入到dataframes中，在两个dataframe中添加一个额外的列“compare”，然后通过所有字段的合并来更新它

Location|Indicator|Measure|Unit|Frequence|Date and do NOT IN operation.

我认为这是一个昂贵的过程，有什么简单的解决办法吗？在

Tags：文件 csv dataframe date unit location 计划 indicator

1条回答

网友

1楼 · 发布于 2024-10-03 06:31:58

Pandas可以用普通的pandas.read_csv()读取gzip压缩的数据文件。在Pandas: Diff of two Dataframes中描述了如何在两个数据帧之间进行区分。在