我有一个csv文件,它有这样的多行记录
id1,id2,id3,id4,id5,id6,id7
1,2,3,4,5,6,7
1,2,3,4
,5,6,
7
1,2
3,4
,5,6,
7
我想更改文件,如下所示-
id1,id2,id3,id4,id5,id6,id7
1,2,3,4,5,6,7
1,2,3,4,5,6,7
1,2,3,4,5,6,7
我知道pyspark可以使用multiline:True选项读取此类文件,但我想将此文件转换为单线行,这是业务用例。我该怎么做呢。要使用的技术可以是Pyspark,也可以是Python(Pandas)。提前谢谢
你有这样的想法吗
输出:
由于已请求,此处是第2部分的无循环版本:
我使用jupter的
%%timeit
测试了它是否真的节省了时间:结果是:相关问题 更多 >
编程相关推荐