擅长:python、mysql、java
<p>文本文件的编码是一个永远无法完全解决的模糊问题。您要么需要猜测编码,要么手上有一个损坏的(或二进制)文件:</p>
<ol>
<li><p>要猜测编码,请尝试在任何高级文本编辑器中打开它,查看它是否为您猜测编码和/或突出显示有问题的字符。</p></li>
<li><p>如果不关心pos0处的坏字符,可以指示python忽略它。参见Python3手册:<code>open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)</code>只需设置<code>errors='ignore'</code>
Python3比python2更好地处理编码,因此如果您提到您使用的是哪个版本,它会有所帮助。</p></li>
<li><p>将文件作为二进制流读取,并在将其转换为<code>str</code>:<code>open(file, 'rb')</code>时处理错误字符。同样,您的解码选项取决于python版本,因此我无法进一步阐述。</p></li>
</ol>