Python编解码器包无法由解码

Traceback (most recent call last): File "HSRecruitsFBByPosition.py", line 141, in <module> file1.write(line + u'\r\n') UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 6879: ordinal not in range(128)

2条回答

网友

1楼 · 编辑于 2024-10-02 18:17:48

codecs.open()为您编码。不要把编码过的数据交给它，因为Python会再次尝试将数据解码为UTF-8。隐式解码使用ASCII编解码器，但由于编码字节字符串中有非ASCII数据，因此无法执行以下操作：

>>> u'Dâ€™Iberville'.encode('utf8')
'D\xc3\xa2\xe2\x82\xac\xe2\x84\xa2Iberville'
>>> u'Dâ€™Iberville'.encode('utf8').encode('utf8')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 1: ordinal not in range(128)

解决方案是*不手动编码：

^{pr2}$

请注意，codecs.open()不是文件流的最有效实现。在Python2.7中，我将使用^{} instead；它提供了相同的功能，但实现得更健壮。io模块是Python3的默认I/O实现，但在Python2中也提供了向前兼容性。在

但是，您似乎在重新发明CSV处理；Python有一个优秀的^{} module，可以为您生成CSV文件。但是，在Python 2中，它无法处理Unicode，因此需要手动编码：

import csv

# ...

year = foo.text
name = foo1.text
city = foo3.text.strip()
state = foo4.text

row = [year, name, city, state]

with open(Outfile.csv, "wb") as outf:
    writer = csv.writer(outf)
    writer.writerow(['Year', 'Name', 'City', 'State'])
    writer.writerow([c.encode('utf8') for c in row])

最后但并非最不重要的是，如果您的HTML页面生成了文本Dâ€™Iberville，那么您生成了一个Mojibake；其中您将UTF-8误解为CP-1252：

>>> u'Dâ€™Iberville'.encode('cp1252').decode('utf8')
u'D\u2019Iberville'
>>> print u'Dâ€™Iberville'.encode('cp1252').decode('utf8')
D’Iberville

这通常是由于绕过BeautifulGroup的编码检测（传入字节字符串，而不是Unicode）引起的。在

你可以尝试在事后用以下方法“修复”这些问题：

try:
    City = City.encode('cp1252').decode('utf8')
except UnicodeError:
    # Not a value that could be de-mojibaked, so probably
    # not a Mojibake in the first place.
    pass

网友

2楼 · 编辑于 2024-10-02 18:17:48

这个'D\xc3\xa2\xe2\x82\xac\xe2\x84\xa2Iberville'是一个普通的字符串，它碰巧有表示字符的转义位。在

你需要先把它解码。由于您还没有给出解码，Python正在尝试ASCII并失败。在

>>> s
'D\xc3\xa2\xe2\x82\xac\xe2\x84\xa2Iberville'
>>> type(s)
<type 'str'>
>>> type(s.decode('utf-8'))
<type 'unicode'>
>>> print(s.decode('utf-8'))
Dâ€™Iberville

以下是如何理解这个过程：

首先，要明白字符是人类的，字节是计算机的。计算机只是帮我们把字节转换成字符，这样我们就可以理解数据了。
所以，任何时候你需要为计算机存储一些东西，你需要把它从字符转换成字节，因为这是计算机知道的。所有文件（甚至文本文件）都是字节。只要你打开它，就可以把这个字节数据转换成字符，这样我们就可以理解它的内容了。对于“二进制”文件（如图像或Word文档），这个过程有点不同。
如果我们正在写“文本”内容，我们需要获取glyphs（字符）并将它们转换成字节，以便可以写入文件。这个过程叫做解码。
当我们想“读”一个文本文件，也就是把字节转换成字形（字符或字母表）时，我们需要对这些位进行编码——实际上，翻译它们。为了知道哪个glyph对应于存储的位，我们使用一个查找表这个表名（utf-8）就是您传入的。

相关问题更多 >

编程相关推荐

热门问题

热门文章