读取CSV后使用奇怪值触发数据帧

1条回答

网友

1楼 · 发布于 2024-06-26 17:38:57

Spark似乎很难读懂这句话：

2020-10-15 00:00:23,1.3165293165079306e+18,"""IS THIS WRONG??!!"" ...

因为有三个双引号。但是，pandas似乎很了解这一点，因此作为一种解决方法，您可以先使用pandas读取csv文件，然后转换为Spark数据帧。通常不建议这样做，因为这会带来很大的开销，但是对于这个小csv文件，性能影响应该是可以接受的

df = spark.createDataFrame(pd.read_csv('hashtag_donaldtrump.csv').replace({float('nan'): None}))

replace用于在pandas数据帧中将nan替换为None。Spark认为nan是一个浮点数，当字符串类型列中有nan时，它会感到困惑

如果大熊猫的文件太大，那么您可以考虑删除那些不能用{{CD6>}：S/

解析的行。

df = spark.read.csv('hashtag_donaldtrump.csv', header=True, multiLine=True, mode='DROPMALFORMED')