我是pyspark的新手,但我需要尽快深入研究。 我想比较一下pyspark中的两个(巨大的)csv文件,目前为止管理得还不错(我很确定,我的代码不怎么奇特) 最后我想统计一下匹配的记录和不匹配的记录。在
我能做到的是:
1正在将csv加载到RDD中。act="actual.csv"
exp="expected.csv"
raw_exp = sc.textFile(exp)
raw_act = sc.textFile(act)
2我可以使用.count()计算记录的数量
^{pr2}$
三。我可以使用subtract和collect比较RDD,以获得不匹配的记录:
notCompRecords = raw_exp.subtract(raw_act).collect()
现在我要数数那些不匹配的记录。 我想我会用:
notCompRecords.count()
但是我得到了一个错误,那就是缺少一个参数:
TypeError: count() takes at least 1 argument (0 given)
我还了解到,我必须通过以下方式将notComRecords的列表转换为字符串:
notCompString = ''.join(notCompRecords)
但这也行不通。在
如何计算Object/Variable/rdd notCompRecords中的行数?在
谢谢! 任何暗示或线索都是值得赞赏的。 谨致问候
从notCompRecords=raw中删除.collect()_经验减法(原始动作).collect()。之后你可以使用notCompRecords.count(). 在
相关问题 更多 >
编程相关推荐