我有以下格式的数据:
1_engineer_grade1 |Boolean IsMale IsNorthAmerican IsFromUSA |Name blah
2_lawyer_grade7 |Boolean IsFemale IsAlive |Children 2
我需要将其转换为包含以下列的数据帧:
id job grade Bool.IsMale Bool.IsFemale Bool.IsAlive Bool.IsNorthAmerican Bool.IsFromUSA Name Children
1 engineer 1 True False False True True blah NaN
2 lawyer 7 False True True True False NaN 2
我可以在python中预处理这些数据,然后调用pd.DataFrame
,但我想知道是否有一种更好的方法来完成这项工作?在
更新:最后我做了以下事情:如果有明显的优化,请告诉我
^{pr2}$UPDATE-2一个一百万行的文件需要大约55秒的时间来处理。在
目前没有回答
相关问题 更多 >
编程相关推荐