Python以不同的方式对待具有相同表示形式的两个字符串

2024-09-28 05:19:52 发布

您现在位置:Python中文网/ 问答频道 /正文

我怀疑这与编码有关。你知道吗

所以我有一根这样的线

text = " sc\ud83d\udc7bUsernameunicode字符是emojis。你知道吗

这根线是直接从Instagram的个人简历上刮下来的。我用这个正则表达式从bio中提取用户名

pattern = ((\s{1}sc\s*?((\\ud83d\\udc7b|»|→|~|@|:|;|-|=|\|)(\\ud83d\\udc7b)\s*)?[A-Za-z0-9]+)|(sc(»|→|~|@|:|;|-|=|\|)\s*[A-Za-z0-9]+)) 
p = re.compile(pattern, flags=re.IGNORECASE)
username = re.search(p, text)

上面的代码将与代码中声明的字符串一起工作,但是当我使用的字符串看起来完全相同,但是从站点中删除时,它将返回None。你知道吗

有没有人知道我应该对刮下的字符串做些什么,使其与我声明的字符串相同,或者在编译模式时需要添加一些不同的标志?你知道吗


Tags: 字符串代码textre声明编码字符pattern

热门问题