抓取编码为iso88591而不是utf8的网站：如何在数据库中存储正确的unicode？

1条回答

网友

1楼 · 发布于 2024-05-19 10:23:59

I am using BeautifulSoup to navigate the page, Google App Engine's urlfetch to make requests

您是否正在将Content-TypeHTTP头中的编码输入BeautifulSoup？在

如果一个HTML页面同时有一个Content-Type头和一个meta标记，那么这个头应该是“win”的，所以如果您只使用meta标记，那么可能会得到错误的编码。在

否则，您可以将固定的编码'utf-8'输入Beautiful，或者单独地修改每个字符串。在

烦人的注意：它实际上不是ISO-8859-1。当web页面称为ISO-8859-1时，浏览器实际上将其视为Windows代码页1252，与8859-1相似，但不相同。€似乎表示cp1252，因为它在8859-1中不存在。在

u'Nellâ€™ambito'.encode('cp1252').decode('utf-8')

如果内容在同一页面上使用一些UTF-8和一些cp1252编码不一致（通常是由于数据库内容处理不好），这将是恢复它的唯一方法，即捕获UnicodeError并在不进行代码转换时返回原始字符串。在