擅长:python、mysql、java
<p>文件看起来像是用UTF-8编码的,但您使用的是<code>mac_roman</code>编码来显示它。这是一个测试:</p>
<pre><code>#coding:utf8
data = u'mammutslätten föglömma'
print data.encode('utf8').decode('mac_roman')
</code></pre>
<p>输出:</p>
^{pr2}$
<p>要在Python中正确读取文件,请使用以下命令使用正确的编码读取Unicode字符串:</p>
<pre><code>import io
with io.open('unigram.wfreq',encoding='utf8') as f:
for line in f:
print line.strip()
</code></pre>
<p>输出:</p>
<pre><code>gruppselektion 4
lating 1
Morsing 2
varuhusen 7
FULLT 8
latino 3
mammutslätten 2
föglömma 1
varuhuset 47
livsnjutningen 1
nedtoning 1
</code></pre>