需要帮助格式化一个.txt文件并放入数据框吗

2024-06-28 20:57:32 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个.txt文件,格式如下:

CIK|Company Name|Form Type|Date Filed|Filename
--------------------------------------------------------------------------------
1000032|BINCH JAMES G|4|2016-11-07|edgar/data/1000032/0001209191-16-148633.txt
1000032|BINCH JAMES G|4|2016-12-02|edgar/data/1000032/0001209191-16-153119.txt
1000045|NICHOLAS FINANCIAL INC|10-Q|2016-11-09|edgar/data/1000045/0001193125-16-763849.txt
1000045|NICHOLAS FINANCIAL INC|4|2016-10-04|edgar/data/1000045/0001000045-16-000006.txt

我想做的是导入这些信息,然后将其插入到数据帧中,每一节在一个新列中的“|”之后,每一新行都是一个新条目。我有将.csv和格式良好的文件导入数据帧的经验,但从未处理过如此混乱的事情。如果你想使用.txt文件,请告诉我。你知道吗

提前谢谢你的帮助。你知道吗


Tags: 文件数据nameformtxtdata格式company
1条回答
网友
1楼 · 发布于 2024-06-28 20:57:32

假设您有以下文本文件:

CIK|Company Name|Form Type|Date Filed|Filename
                                        
1000032|BINCH JAMES G|4|2016-11-07|edgar/data/1000032/0001209191-16-148633.txt
1000032|BINCH JAMES G|4|2016-12-02|edgar/data/1000032/0001209191-16-153119.txt
1000045|NICHOLAS FINANCIAL INC|10-Q|2016-11-09|edgar/data/1000045/0001193125-16-763849.txt
1000045|NICHOLAS FINANCIAL INC|4|2016-10-04|edgar/data/1000045/0001000045-16-000006.txt

解决方案:

df = pd.read_csv(filename, sep='|', skiprows=[1], parse_dates=['Date Filed'])

结果:

In [94]: df
Out[94]:
       CIK            Company Name Form Type Date Filed                                     Filename
0  1000032           BINCH JAMES G         4 2016-11-07  edgar/data/1000032/0001209191-16-148633.txt
1  1000032           BINCH JAMES G         4 2016-12-02  edgar/data/1000032/0001209191-16-153119.txt
2  1000045  NICHOLAS FINANCIAL INC      10-Q 2016-11-09  edgar/data/1000045/0001193125-16-763849.txt
3  1000045  NICHOLAS FINANCIAL INC         4 2016-10-04  edgar/data/1000045/0001000045-16-000006.txt

In [95]: df.dtypes
Out[95]:
CIK                      int64
Company Name            object
Form Type               object
Date Filed      datetime64[ns]
Filename                object
dtype: object

相关问题 更多 >