如何在Pyspark中读取多行CSV文件

2024-06-26 18:06:04 发布

您现在位置:Python中文网/ 问答频道 /正文

我将这个tweets数据集与Pyspark一起使用,以便处理它,并根据tweet的位置获得一些趋势。但是我在尝试创建数据帧时遇到了一个问题。我正在使用spark.read.options(header="True").csv("hashtag_donaldtrump.csv")创建数据帧,但是如果我查看tweets列,我得到的结果是:

enter image description here

您知道如何清理CSV文件以便Spark处理它吗?提前谢谢你


Tags: 文件csv数据trueread趋势tweetsspark