正则表达式代码，如何解决一些数据输入错误

2条回答

网友

1楼 · 编辑于 2024-09-30 01:22:14

编辑：再试一次，因为我的第一个不全在那里。您可以从this excellent answer获取正则表达式，只需更改一件事。如果它们的前向匹配任何逗号，我们只想匹配后跟另一个单词的逗号。导致：

(?:(?<=^(?!.*, *\w))|(?<=, ))([A-Z]+)

网友

2楼 · 编辑于 2024-09-30 01:22:14

你可以用

(^(?=[^,]*,?$)[\w'-]+|(?<=, )[\w'-]+)

见regex demo。如果字符串中有尾随逗号，此模式允许在字符串的初始位置匹配名称

在熊猫中使用Series.str.extract矢量化方法：

df['first name'] = df['name'].str.upper().str.extract(r"(^(?=[^,]*,?$)[\w'-]+|(?<=, )[\w'-]+)", expand=False)

正则表达式详细信息

^(?=[^,]*,?$)[\w'-]+-如果字符串没有逗号，但可能以可选逗号（(?=[^,]*,?$)）结尾，则字符串（^）开头的一个或多个单词，'和-字符（[\w'-]+）
|-或
(?<=, )[\w'-]+-一个或多个单词，'和-字符前面带有逗号+空格