使用Pandas解析脏文本文件时的标题问题

from zipfile import ZipFile import pandas as pd def main(): #Driver FILENAME_PREFIX = 'bhcf' FILE_TYPE = '.txt' field_headers = [] with ZipFile('reg_data.zip', 'r') as zip: with zip.open(FILENAME_PREFIX + '9909'+ FILE_TYPE) as qtr_file: headers_df = pd.read_csv(qtr_file, sep='^', header=None) headers_df = headers_df[:1] headers_array = headers_df.values[0] parsed_data = pd.read_csv(qtr_file, sep='^',header=headers_array)

1条回答

网友

1楼 · 发布于 2024-05-19 16:11:17

我尝试了你链接的文件和我从2015年下载的文件：

import pandas as pd
df = pd.read_csv('bhcf9909.txt',sep='^')
first_headers = df.columns.tolist()
df_more_actual = pd.read_csv('bhcf1506.txt',sep='^')
second_headers = df_more_actual.columns.tolist()
print(df.shape)
print(df_more_actual.shape)
# df_more_actual has more columns than first one
# Normalize column names to avoid duplicate columns
df.columns = df.columns.str.upper()
df_more_actual.columns = df_more_actual.columns.str.upper()
new_df = df.append(df_parsed2)
print(new_df.shape)

最后的数据帧既有csv的行，也有csv的列的并集。您可以对每个季度的csv执行此操作并附加它，这样最终您将拥有它们的所有行和列的并集。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章