在Python中合并.csv文件合并文件数据错误Jupyter Lab

import glob import pandas as pd file_extension = '.export.CSV' all_filenames = [i for i in glob.glob(f"*{file_extension}")] combined_csv_data = pd.concat([pd.read_csv(f, delimiter='\t', encoding='UTF-8', low_memory= False) for f in all_filenames]) combined_csv_data.to_csv('2014DataCombinedMarch.csv')

1条回答

网友

1楼 · 发布于 2024-10-03 11:26:03

看起来这些CSV文件没有标题，因此Pandas正在尝试使用文件中的第一行作为标题。然后，当Pandas尝试将数据帧连接在一起时，它会尝试匹配它为每个文件推断的列名

我找到了抑制这种行为的方法：

import glob
import pandas as pd


def read_file(f):
    names = [f"col_{i}" for i in range(58)]
    return pd.read_csv(f, delimiter='\t', encoding='UTF-8', low_memory=False, names=names)


file_extension = '.export.CSV'
all_filenames = [i for i in glob.glob(f"*{file_extension}")]

combined_csv_data = pd.concat([read_file(f) for f in all_filenames])
combined_csv_data.to_csv('2014DataCombinedMarch.csv')

您可以通过names参数为熊猫提供自己的列名。在这里，我只是提供col_0、col_1、col_2等名称，因为我不知道它们应该是什么。如果您知道这些列应该是什么，那么应该更改names = 行

我测试了这个脚本，但只使用了2个数据文件作为输入，而不是全部31个

PS：你考虑过使用Google BigQuery获取数据吗？我以前曾通过该界面与GDELT合作过，这更容易

相关问题更多 >

编程相关推荐

热门问题

热门文章