Python utf8重音问题

>>> print a refeiÃ§Ã£o >>> ENCODING = locale.getpreferredencoding() >>> print ENCODING UTF-8 >>> print a.encode(ENCODING) Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 5: ordinal not in range(128) >>> a.decode('utf-8') u'refei\xe7\xe3o' >>> print a.decode('utf-8') refeiÃ§Ã£o

2条回答

网友

1楼 · 编辑于 2024-09-30 16:27:08

在工作中，我去除了所有的口音。在

以下是我使用的代码：

def remove_accents(s):
   return ''.join((c for c in unicodedata.normalize('NFD', s.decode('utf-8')) if unicodedata.category(c) != 'Mn'))

基于此答案： What is the best way to remove accents in a Python unicode string?

网友

2楼 · 编辑于 2024-09-30 16:27:08

看起来您的终端窗口以单字节ISO-8859-1字符集（“拉丁语-1”）显示文本，但是python解释器认为终端正在讲UTF-8。我们可以从u'refei\xe7\xe3o'中看到Python具有正确的内部表示形式。显然，print命令随后将内部表示形式转换为UTF-8并将其发送到您的终端，当终端将UTF-8解释为ISO-8859-1时，就会产生胡言乱语。在

解决方法是通过更改区域设置或确保终端为utf-8，使您的语言环境与终端正在执行的操作相匹配。在

相关问题更多 >

编程相关推荐

热门问题

热门文章