读取带有垃圾值的坏csv文件

网友

1楼 · 编辑于 2024-06-26 09:31:38

打开csv文件，找到列名起始的行：

with open(r'data.csv') as fp:
    skip = next(filter(
        lambda x: x[1].startswith(('Name','NAME')),
        enumerate(fp)
    ))[0]

该值将存储在skip参数中

^{pr2}$

在Python3.X中工作

网友

2楼 · 编辑于 2024-06-26 09:31:38

我想建议对@RahulAgarwal's answer稍作修改/简化。您可以继续将同一个流直接加载到pandas中，而不是关闭并重新打开文件。您不必记录要跳过的行数，而是可以记录标题行并手动拆分以提供列名：

with open(r'data.csv') as fp:
    names = next(line for line in fp if line.casefold().lstrip().startswith('name'))
    df = pd.read_csv(fp, names=names.strip().split())

这对于具有大量垃圾桶线的文件具有优势。在

更详细的检查可以是这样的：

^{pr2}$

但在这个函数中，任何可能的垃圾行都会被跳过。您可以将其用作过滤器：

names = next(line for line in fp if isheader(line))

网友

3楼 · 编辑于 2024-06-26 09:31:38

如果这确实是一个结构（而不仅仅是一个可以得到哪种垃圾的例子），您可以简单地使用skiprows参数来指示应该跳过多少行。换句话说，您应该这样读取数据帧：

import pandas as pd

df = pd.read_csv('your.csv', skiprows=3)

请注意，skiprows可以做得更多。检查文件。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

读取带有垃圾值的坏csv文件

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >