pandas自定义文件格式解析

2024-10-02 22:36:14 发布

您现在位置:Python中文网/ 问答频道 /正文

我有以下格式的数据:

1_engineer_grade1 |Boolean IsMale IsNorthAmerican IsFromUSA |Name blah 2_lawyer_grade7 |Boolean IsFemale IsAlive |Children 2

我需要将其转换为包含以下列的数据帧:

id job      grade Bool.IsMale Bool.IsFemale Bool.IsAlive Bool.IsNorthAmerican Bool.IsFromUSA Name Children
1  engineer 1     True        False         False        True                 True           blah NaN
2  lawyer   7     False       True          True         True                 False          NaN  2

我可以在python中预处理这些数据,然后调用pd.DataFrame,但我想知道是否有一种更好的方法来完成这项工作?在

更新:最后我做了以下事情:如果有明显的优化,请告诉我

^{pr2}$

UPDATE-2一个一百万行的文件需要大约55秒的时间来处理。在


Tags: 数据namefalsetrueboolblahchildrenboolean