我正在使用pypark(python3)创建和过滤基于RDD的数组元素。你知道吗
INCLUDE_CITIES = {'Philadephia','Buffalo','Syracuse'}
...
...
...
rddFiltered = sc.textFile(fileLocation).filter(lambda line: line in INCLUDE_STATIONS)
print (rddFiltered.take(10))
只有当我从数组中找到城市时,我才希望内容在RDD中。上面的语法不正确,但我需要一些帮助。我想坚持RDD的现在,而不是使用数据集或DF。 感谢您的帮助。提前谢谢。你知道吗
这是因为您的文本文件有问题或可能您没有将文本文件放入HDFS(使用命令HDFS dfs-put)城市.txt将文本文件放入HDFS主目录)
这个例子对我很有用
1)创建文本文件
你知道吗城市.txt你知道吗
2)将文本文件放在hdfs中
2)运行代码
相关问题 更多 >
编程相关推荐