使用pySp比较csv文件

2024-09-29 21:53:26 发布

男 | 程序猿一只，喜欢编程写python代码。

我是pyspark的新手，但我需要尽快深入研究。我想比较一下pyspark中的两个（巨大的）csv文件，目前为止管理得还不错（我很确定，我的代码不怎么奇特）最后我想统计一下匹配的记录和不匹配的记录。在

我能做到的是：

1正在将csv加载到RDD中。

act="actual.csv"
exp="expected.csv"
raw_exp = sc.textFile(exp)                                                  
raw_act = sc.textFile(act)

2我可以使用.count（）计算记录的数量 ^{pr2}$ 三。我可以使用subtract和collect比较RDD，以获得不匹配的记录：

notCompRecords  = raw_exp.subtract(raw_act).collect()

现在我要数数那些不匹配的记录。我想我会用：

notCompRecords.count()

但是我得到了一个错误，那就是缺少一个参数：

TypeError: count() takes at least 1 argument (0 given)

我还了解到，我必须通过以下方式将notComRecords的列表转换为字符串：

notCompString   = ''.join(notCompRecords)

但这也行不通。在

如何计算Object/Variable/rdd notCompRecords中的行数？在

谢谢！任何暗示或线索都是值得赞赏的。谨致问候

Tags：文件 csv raw count 记录 act pyspark collect

1条回答

网友

1楼 · 发布于 2024-09-29 21:53:26

从notCompRecords=raw中删除.collect（）_经验减法（原始动作）.collect（）。之后你可以使用notCompRecords.count(). 在