urllib2/lxml编码问题

2条回答

网友

1楼 · 编辑于 2024-10-05 14:32:34

现在网站使用的是一个“endash”，它是一个稍长的破折号（你应该在40-56范围内使用这个破折号，真的）。是的，破折号本身就是一门科学）。在

在Unicode中，endash具有码位U+2013。您得到的数字，\342\200\223是该码位的UTF-8编码的八进制表示。为什么你得到八进制我不知道，我得到十六进制，所以在我的电脑上它看起来像'\xe2\x80\x93'。但这没什么区别，只是回应而已。数字是一样的。在

您可能应该做的是尽早将得到的HTML字符串解码为unicode。获取页面时返回的标题应该告诉您它使用什么编码（尽管这里显然是UTF8），从页眉中提取数据相当容易，当您打印出页眉时就会看到它。在

然后解码html数据：

htmldata = htmldata.decode(<the encoding you found in the headers>)

网友

2楼 · 编辑于 2024-10-05 14:32:34

在此过程中，您主要需要注意两个方面的unicode问题：

在

#  from an lxml etree
etree.tostring(root, encoding='utf-8', xml_declaration=False)

# from a unicode string
x.encode('utf-8')