擅长:python、mysql、java
<p>实际上这对我来说是lxml本身的一个问题,他们假设每个人都默认使用ASCII/Latin-1,这很愚蠢。即使尝试在UTF-8中运行解析器也可能会返回错误,请尝试如下调用解析器:</p>
<blockquote>
<p>parser = etree.HTMLParser(encoding='shift-jis')</p>
</blockquote>
<p>据我所见,Shift-JIS仍然是日语页面中最常见的字符集。我的Python/lxml模块<a href="http://github.com/caio1982/Amazon-Wishlist" rel="nofollow">http://github.com/caio1982/Amazon-Wishlist</a>使用上面的方法处理日语页面。在</p>