如何在Pyspark中读取多行CSV文件

2024-06-26 18:06:04 发布

男 | 程序猿一只，喜欢编程写python代码。

我将这个tweets数据集与Pyspark一起使用，以便处理它，并根据tweet的位置获得一些趋势。但是我在尝试创建数据帧时遇到了一个问题。我正在使用spark.read.options(header="True").csv("hashtag_donaldtrump.csv")创建数据帧，但是如果我查看tweets列，我得到的结果是：

您知道如何清理CSV文件以便Spark处理它吗？提前谢谢你

Tags：文件 csv 数据 true read 趋势 tweets spark

1条回答

网友

1楼 · 发布于 2024-06-26 18:06:04

它看起来像一个多行csv。试着做

df = spark.read.csv("hashtag_donaldtrump.csv", header=True, multiLine=True)

编程相关推荐

使用Selenium Webdriver的java IE浏览器：“驱动程序可执行文件是一个目录”
初学者Java多线程问题
java使用lambdas从映射返回前n个元素
如何使用JavaSpringBoot检测方法post中保存的重复值
java MarginLeft不起作用：为什么？
java Excel文件在写入后已损坏
类中从方法到字符串的java字符串
java JavaFX线条图颜色差异
java将整型数组列表展平
java内容显示在带有自定义单元格工厂的空行中

如何在Pyspark中读取多行CSV文件

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在Pyspark中读取多行CSV文件

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >