从csv读取pandas dataframe,从nonfix head开始

2024-07-04 05:30:34 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一些数据文件是由我实验室中使用的一些相当粗糙的脚本生成的。这个脚本非常有趣,因为它在头之前附加的行数因文件而异(尽管它们的格式相同,头也相同)。在

我正在写一个批处理所有这些文件到数据帧。如果我不知道位置,如何让熊猫识别正确的标题?我知道确切的heder文本,以及前面两行的文本(它们是文档中\r\n的唯一连续实例)。在

我尝试在文档末尾定义空跳过,并选择(谢天谢地)每个文件包含的固定数据行数:

df = pd.read_csv(myfile, skipfooter=0, nrows=267)

那没用。在

你还有什么进一步的想法吗?在


Tags: 文件数据实例文档文本脚本标题df
1条回答
网友
1楼 · 发布于 2024-07-04 05:30:34

您可以打开文件并迭代它,直到满足连续的\r\n,并将结果传递给解析器,即

with open(csv_file_name, 'rb') as source:
    consec_empty_lines = 0
    for line in source:
        if line == '\r\n':
            consec_empty_lines += 1
            if consec_empty_lines == 2: 
                break
        else:
            consec_empty_lines = 0
    df = pd.read_csv(source)

相关问题 更多 >

    热门问题