<p>我在编码方面遇到了一个问题,这个问题看起来与这里的其他问题非常相似,但并不完全相同,我无法解决整个问题。在</p>
<p>我以为我已经掌握了编码的概念,但我有这些特殊的字符(æ,å,ö等),在打印时看起来不错,但无法写入文件。(例如,当我写入文件时,æ变为ÃН)</p>
<p>我的代码如下:</p>
<pre><code>def sortWords(subject, articles, stopWordsFile):
stopWords = []
f = open(stopWordsFile)
for lines in f:
stopWords.<a href="https://www.cnpython.com/list/append" class="inner-link">append</a>(lines.split(None, 1)[0].lower())
for x in range(0,len(articles)):
f = open(articles[x], 'r')
article = f.read().lower()
article = re.sub("[^a-zA-Z\æøåÆØÅöÖüÜ\ ]+", " ", article)
article = [word for word in article.split() if word not in stopWords]
print ' '.join(article)
w = codecs.open(subject+str(x)+'.txt', 'w+')
w.write(' '.join(article))
sortWords("hpv", ["vaccine_texts/hpv1.txt"], "stopwords.txt")
</code></pre>
<p>我尝试了各种编码,用编解码器.打开(file,r,'utf-8'),但无效。我错过了什么?在</p>
<p>我在ubuntu上(从Windows切换过来,因为它的终端无法正确输出)</p>