查找regex、unicode模式

2条回答

网友

1楼 · 编辑于 2024-10-01 11:26:53

仅仅因为页面有非拉丁字符并不意味着它是用unicode编码的（还有，哪个unicode编码？utf-8？utf-16？）。你知道吗

另外，^{}可能不会做你认为它做的事情。从文档中：

Make `\w, \W, \b, \B, \d, \D, \s` and `\S` dependent on the Unicode character properties database.

所有这一切意味着这些特定的字符类被更广泛地定义，它对源文本没有任何影响。你知道吗

而且，coding definition，-*- coding: utf-8 -*-只指定源文件的编码。你知道吗

最后，正如在其中一条评论中所指出的，可能是因为使用了当前字体不支持的字符。反过来，这可能是假定某个编码而文本以不同的编码方式编码的结果。你知道吗

网友
2楼 · 编辑于 2024-10-01 11:26:53

这本身可能不是一个“答案”。。但是您可以尝试使用http://www.debuggex.com调试一下regexp。你知道吗