正则表达式的Python unicode编码

import re import locale locale.setlocale(locale.LC_ALL,'en_ES') wordmatch=re.compile(r'^\w*$',re.UNICODE) line="D\u00f3nde est\u00e1s" line=line.decode('unicode_escape') for word in line.split(): if wordmatch.match(word): print "Matched "+word else: print "No match "+word

1条回答

网友

1楼 · 发布于 2024-09-30 14:29:32

更改区域设置并不直接意味着更改编码，en_US的编码不是强制的ascii。例如，在我的系统上，它是iso-8859-1，一种编码，其中ó和á是有效的。这可以解释为什么re.LOCALE不抱怨这些字符。你知道吗

要操作编码，我宁愿使用encode函数而不是正则表达式：

line="D\u00f3nde est\u00e1s"
line=line.decode('unicode_escape')

# get current encoding, or set to "ascii" if you want to be more restrictive
pref_encoding = locale.getpreferedencoding()

for word in line.split():
    try:
        w = word.encode(pref_encoding)
    except UnicodeEncodeError as e:
        print "This word contains unacceptable characters: ", word
        break

相关问题更多 >

编程相关推荐

热门问题

热门文章

正则表达式的Python unicode编码

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >