Pyspark/Python：将包含多行文件的csv文件转换为单行文件

1条回答

网友

1楼 · 发布于 2024-10-06 18:23:59

你有这样的想法吗

import re

items  = re.findall("[^ ,\n]+", """id1,id2,id3,id4,id5,id6,id7
1,2,3,4,5,6,7

1,2,3,4

,5,6,

7

1,2

3,4

,5,6,


7""")

rows = [items[i:i+7] for i in range(0,len(items),7)]
pd.DataFrame(rows[1:], columns=rows[0])

输出：

  id1 id2 id3 id4 id5 id6 id7
0   1   2   3   4   5   6   7
1   1   2   3   4   5   6   7
2   1   2   3   4   5   6   7

由于已请求，此处是第2部分的无循环版本：

rows = np.array(items).reshape(len(items)//7,7)
pd.DataFrame(rows[1:], columns=rows[0])

我使用jupter的%%timeit测试了它是否真的节省了时间：结果是：

正则表达式部分的长度为6.66µs±43.8 ns
然后将其转换为数据帧的旧循环部分需要759µs±2.81µs
新的numpy版本需要149µs±4.82µs

编程相关推荐

java如何获取用于Eclipse插件开发的JavaDoc？
JavaNetBeansWebLogicWeb。xml Servlet
java组和角色在OpenDJ LDAP中是一样的吗？
java如何将用户名从editeText值检查为sqlite
在Java中如何检查null元素是否为整数数组？
java Mockito当。。。结果总是返回null
java Synthetica和Synthetica插件
java在Runnable Jar文件中没有这样的文件异常
java Android Studio无法创建对象（recyclerview）
java Hibernate即时加载（获取所有属性不起作用）

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pyspark/Python：将包含多行文件的csv文件转换为单行文件

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >