如何删除尾随的非alpha字符

网友

1楼 · 编辑于 2024-10-04 11:29:25

output = re.sub("[^a-zA-Z]+$", "", s)

网友

2楼 · 编辑于 2024-10-04 11:29:25

\w是“单词字符”，包括字母数字（字母、数字）加下划线（389;）。你知道吗

假设您只需要在末尾保留大小写字母：

output = re.sub("[^A-Za-z ]+$", "", s)

网友

3楼 · 编辑于 2024-10-04 11:29:25

在末尾锚定模式，并使用正确的字符类：

output = re.sub(r"[\W\d_]+$", "", s)

这将删除字符串末尾所有非字母字符的一次运行；$锚点限制范围，[\W\d_]正确匹配非字母，而不仅仅是非单词字符（单词字符包括数字和下划线字符）。你知道吗

我还将regex设置为原始字符串（对于regex模式，您应该始终这样做），这样就不需要使用双反斜杠。你知道吗

请注意，虽然[^a-zA-Z]可以替换[\W\d_]，但我强烈建议[\W\d_]而不是[^a-zA-Z]，因为前者是Unicode友好的，而后者则不是；例如，如果您的文本是'résumé'，则使用[^a-zA-Z]会去掉后面的é，[\W\d_]不会