我有两个gzip压缩的csv文件IMFBOP2017_1.csv.gz
和{"Location, Indicator, Measure, Unit, Frequency, Date"
。在
总行数6000多万
我想比较IMFBOP2017_1
中不存在的IMFBOP2017_1
的文件和显示行。在
我的计划是将这两个文件导入到dataframes中,在两个dataframe中添加一个额外的列“compare”,然后通过所有字段的合并来更新它
Location|Indicator|Measure|Unit|Frequence|Date and do NOT IN operation.
我认为这是一个昂贵的过程,有什么简单的解决办法吗?在
Pandas可以用普通的
pandas.read_csv()
读取gzip压缩的数据文件。在Pandas: Diff of two Dataframes中描述了如何在两个数据帧之间进行区分。在相关问题 更多 >
编程相关推荐