使用pySp比较csv文件

2024-09-29 21:53:26 发布

您现在位置:Python中文网/ 问答频道 /正文

我是pyspark的新手,但我需要尽快深入研究。 我想比较一下pyspark中的两个(巨大的)csv文件,目前为止管理得还不错(我很确定,我的代码不怎么奇特) 最后我想统计一下匹配的记录和不匹配的记录。在

我能做到的是:

1正在将csv加载到RDD中。
act="actual.csv"
exp="expected.csv"
raw_exp = sc.textFile(exp)                                                  
raw_act = sc.textFile(act)
2我可以使用.count()计算记录的数量 ^{pr2}$ 三。我可以使用subtract和collect比较RDD,以获得不匹配的记录:
notCompRecords  = raw_exp.subtract(raw_act).collect()

现在我要数数那些不匹配的记录。 我想我会用:

notCompRecords.count()

但是我得到了一个错误,那就是缺少一个参数:

TypeError: count() takes at least 1 argument (0 given)

我还了解到,我必须通过以下方式将notComRecords的列表转换为字符串:

notCompString   = ''.join(notCompRecords) 

但这也行不通。在

如何计算Object/Variable/rdd notCompRecords中的行数?在

谢谢! 任何暗示或线索都是值得赞赏的。 谨致问候


Tags: 文件csvrawcount记录actpysparkcollect

热门问题