需要Pandas和正则表达式校对或校对帮助软件

2024-09-27 21:27:37 发布

男 | 程序猿一只，喜欢编程写python代码。

我很难知道我的RegEx语法是否达到了我真正想要的效果，也不知道如何用Python特有的方式来校对它。你知道吗

有人能帮我校对一下吗，或者帮我找个地方自我校对一下，这是否适合显示熊猫数据框的行，其中“名称”列下的单元格值包含的字符不是英文字母表、数字和各种常用标点符号中的字符，或者我是否在反斜杠上/下了一些字符？你知道吗

（我猜我需要反斜杠和方括号。）

（注意：我知道源数据在此列中永远不会有多行单元格值。）

filtereddf = df[~df['Name'].str.match(r'^[a-zA-Z\d_\s.&+-,!@#$%^*();\\/|<>"\'?=:\[\]]+$')]

另外，在确保通常被视为“字母”的事物中，只有英语26 a-z&a-z允许的同时，还有什么更巧妙的“各种标点符号”技巧吗？你知道吗

更新：

我得到了一个关于“Python Regex syntax explainer”的建议，我需要在注释中进行自我校对——我应该考虑作为一种替代方法来要求它，而不是仅仅要求校对帮助。抱歉刚开始的问题措辞不好；更新了。你知道吗

Tags：数据名称 df 地方方式语法数字字符

1条回答

网友

1楼 · 发布于 2024-09-27 21:27:37

如果要搜索非ASCII字符，请尝试以下正则表达式：

[^\x00-\x7F]

大熊猫：

df = df[df['Name'].str.contains('[^\x00-\x7F]')]