我有一个dataframe,它有一个非常不一致的列。例如:
df = pd.DataFrame(columns=["CID", "CM"], data=[['xxx-1','skill_start=skill1,skill2,||skill_complete=skill1,'],['xxx-2','survey=1||skill_start=skill1,skill3||skill_complete=skill3'],['xxx-3','skill_start=skill2,skill3||skill_complete=skill2,skill3||abandon_custom=0']])
我正在尝试拆分CM列。我试过这个,它让我非常接近:
df = df.join(metrics['CM'].str.split('\|\|', expand=True).add_prefix('CM'))
但由于数据不一致,列排列不整齐。我该如何分类呢
所需输出示例:
['CID', 'survey', 'skill_start', 'skill_complete', 'abandon_custom'],['xxx-1','NaN','skill1,skill2','skill1','NaN'],['xxx-2','1','skill1,skill3','skill3','NaN'],['xxx-3','NaN','skill2,skill3','skill2,skill3','0']
您是否尝试过使用多个分隔符,但不确定这是否是您要查找的内容:
我解决了
解决方案是使用regex提取器创建一个新的数据帧,其中只包含我正在寻找的值,在需要时使用get_假人,然后将其连接回主数据帧
相关问题 更多 >
编程相关推荐