在Python中搜索连字符的所有Unicode变体

1条回答

网友

1楼 · 发布于 2024-09-25 04:25:41

您在问题标题中要求的解决方案暗示了一种白名单的方法，意味着您需要找到您认为类似于连字符的字符。在

您可以参考Punctuation, Dash Category，该Unicode目录列出了所有可能的Unicode连字符。在

您可以使用PyPi regex module并使用\p{Pd}模式来匹配任何Unicode连字符。在

或者，如果只能使用re，请使用

[\u002D\u058A\u05BE\u1400\u1806\u2010-\u2015\u2E17\u2E1A\u2E3A\u2E3B\u2E40\u301C\u3030\u30A0\uFE31\uFE32\uFE58\uFE63\uFF0D]

您可以使用其他Unicode字符扩展此列表，这些字符的Unicode名称中包含minus，请参见this list。在

黑名单方法意味着您不希望在两对数字之间匹配特定的字符。如果要匹配任何非空白，可以使用\S。如果要匹配任何标点或符号，请使用(?:[^\w\s]|_)。在