将丑陋的csv解析为数据帧的最佳方法问题的回答

将丑陋的csv解析为数据帧的最佳方法

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我的目的是将Matlab代码移植到Python代码中。我是python新手，但我仍在尝试分离csv文件 我的目的是解析一个具有类似以下结构的CSV文件： <pre><code>SENSORID;DATESMPL;TRE;ISRC FQBI-000-001;08/01/2020 13:56:00;-10.0956;0.03662119 LAMBDAS;1550;1551;1552;1553;1554 REFERENCE;6961.058824;6959.564706;6959.423529;6960.988235;6961.788235 1;166;164;162;138;162 2;146;152;161;143;142 3;138;147;150;133;124 4;134;120;158;145;133 5;135;157;135;139;137 </code></pre> 预期结果（在python数据帧上）： <pre class="lang-py prettyprint-override"><code> SENSORID DATESMPL TRE ISRC 1550 1551 1552 1553 1554 0 FQBI-000-001 08/01/2020 13:56:00 -10.0956 0.03662119 166 164 162 138 162 1 FQBI-000-001 08/01/2020 13:56:00 -10.0956 0.03662119 146 152 161 143 142 2 FQBI-000-001 08/01/2020 13:56:00 -10.0956 0.03662119 138 147 150 133 124 3 FQBI-000-001 08/01/2020 13:56:00 -10.0956 0.03662119 134 120 158 145 133 4 FQBI-000-001 08/01/2020 13:56:00 -10.0956 0.03662119 135 157 135 139 137 </code></pre> 参考行将被丢弃。传感器ID、DATESMPL、TRE和ISRC的值必须为每个实际测量数据行（从1到5的整数开始）复制 当然，我必须解析的实际CSV比我的示例中要大得多，即LAMBDA从1550到1850，有255个测量行（每个文件大约250 kB） 为了让事情变得更简单，我最终将不得不导入多达10000个这些文件，并将它们存储在一个唯一的<code>DataFrame</code>中 使用Matlab，我可以使用<code>textscan</code>函数解析这些文件，并将数据存储在统计工具箱提供的dataset对象中。导入10000个文件可以在不到10分钟的时间内完成，这在本案例中是可以接受的 在Python下，最好的方法是什么？ 似乎有很多方法可以做到这一点： <ul> <li>将文件内容作为列表中的字符串读取</li> <li>使用<code>NumPy</code>数组或</li> <li>使用<code>DataFrame.read_csv()</code></li> </ul> 但我不确定什么是最有效的方法 我真的很想保持性能接近（或者更好，当然）我与Matlab

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

将丑陋的csv解析为数据帧的最佳方法

1 个回答

相关Python问题