在python中，u字符出现在正则表达式中

for page in pdf.pages: pdf = page.extractText() # print elpdf r = re.compile(r'[\w\-][\w\-\.]+@[\w\-][\w\-\.]+[a-zA-Z]{1,4}') results = r.findall(pdf) Listemail.append(results) print(Listemail[0:]) pdf.stream.close()

3条回答

网友

1楼 · 编辑于 2024-09-30 14:17:08

这些是unicode strings，你不需要避免它们，除非你有一些真正的问题。你知道吗

网友

2楼 · 编辑于 2024-09-30 14:17:08

正如其他人所指出的，这不是一个bug，而是一个特性。你知道吗

如果您想要的是非unicode编码的字符串，那么可以将文本从unicode转换为更容易接受的格式。本问答涵盖以下主题：

Convert a Unicode string to a string in Python (containing extra symbols)

我以前遇到过这种情况，在某些用例中，它可能会有问题，因为您将遇到方法需要非unicode字符串并中断的问题。：）

该链接的示例解决方案：

>>> a=u'aaa'
>>> a
u'aaa'
>>> a.encode('ascii','ignore')
'aaa'
>>> a.encode('utf8','ignore')
'aaa'
>>> str(a)
'aaa'
>>>

网友

3楼 · 编辑于 2024-09-30 14:17:08

那不是问题。在字符串前面加u表示它是Python unicode字符串。See this documentation.除非你对它们做了什么疯狂的事情，因为某种原因需要你的字符串不是unicode，否则我不认为这会是一个问题。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章