擅长:python、mysql、java
<p>我以前从未使用过<code>mechanize</code>,我一直在使用urllib2和beautifulsoup4。
我多次遇到编码和解码问题。也许我的一些经验会有所帮助。在</p>
<p>当您从页面<code>elem.text</code>读取文本时,默认值始终是unicode。有时人们会有好运直接在屏幕上打印unicode,一切都很好。有时,控制台无法正确显示unicode。它表示两件事:</p>
<ol>
<li><p>您已经在中准备好了数据,唯一的问题是您希望在IDE中看到它(Eclipse、Pycharm等等),它将无法工作。您可以不做任何事情就将unicode写入数据库或文件,有时当您看到IDE外部的数据时,它会正确显示。</p></li>
<li><p>如果您想在编写代码时先看到文本(谁不想呢?)你可以<code>print elem.text.encode('utf-8')</code>,我一直很幸运。</p></li>
</ol>