我想从title列中提取以下字符串,并将其附加到名为hazard_extract
的新列中,如下面的示例所示
test = {'title': ['Other', 'Microbiological - Listeria', 'Extraneous Material', 'Chemical', 'Chemical - Histamine', 'Labelling, Other'], 'hazard_extract':['Other', 'Microbiological', 'Extraneous Material', 'Chemical', 'Chemical', 'Labelling']}
example = pd.DataFrame(test)
example
title hazard_extract
0 Other Other
1 Microbiological - Listeria Microbiological
2 Extraneous Material Extraneous Material
3 Chemical Chemical
4 Chemical - Histamine Chemical
5 Labelling, Other Labelling
但是,我正在使用下面的代码-如果字符串没有-
或,
,则不会提取字符串。在这种情况下,如何提取Extraneous Material
中的单词和Chemical
或Other
中的单个单词
example['hazard_extract'] = example['title'].str.extract(r'^(.*?),? ')
title hazard_extract
0 Other NaN
1 Microbiological - Listeria Microbiological
2 Extraneous Material Extraneous
3 Chemical NaN
4 Chemical - Histamine Chemical
5 Labelling, Other Labelling
非常感谢你的帮助
最简单的方法是使用
split
试试这个:
不需要复杂的正则表达式:
相关问题 更多 >
编程相关推荐