更改文本fi时出现UnicodeDecodeError问题的回答

更改文本fi时出现UnicodeDecodeError

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我正在编写一个程序，它接收一个文本文件并生成另一个文本文件，其中： 1瑞典字母格式正确。 2所有非字母的单词都将被删除。三。所有大写字母都已转换为小写字母。在 这是我的代码： <pre><code>import string infile = open("unigram.wfreq","r") outfile = open("bigram.txt","w") line = "Start" while line != "": line = infile.readline() wordandcount = line.split() word = wordandcount[0] ##Fix å ä ö. ## å == √• ä == √§ ö == √∂ if "√•" in word or "√§" in word or "√∂" in word: word = word.replace("√•","å") word = word.replace("√§","ä") word = word.replace("√∂","ö") if word.isalpha(): word = word.lower() outfile.write(word+"\n") print(line) </code></pre> 这是我的unigram.wordfreq公司文件： ^{pr2}$ 运行该文件时，出现以下错误： <pre><code>Traceback (most recent call last): File "formater.py", line 13, in <module> line = infile.readline() File "/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/codecs.py", line 321, in decode (result, consumed) = self._buffer_decode(data, self.errors, final) UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 2732-2733: invalid continuation byte </code></pre> 如果我看终端输出的末端，我会看到以下内容： <pre><code>Omgångsstarten 1 nationssplittring 1 Handtvätten 1 Three 47 domherre 1 http://www.dryden.se 1 Getryggarna 1 mineraloljor 21 </code></pre> 如果我在unigram.wordfreq公司我希望在mineraljor后面看到生成错误的单词（对吗？），但我看到了： <pre><code>Getryggarna 1 mineraloljor 21 MAYHEM 1 avv√§njer 1 tilltrasslad 1 EUROPEISKT 1 </code></pre> 在<code>mineraloljor</code>之后，有{<cd2>}。我不明白为什么这个词会引起错误，它没有什么不同！在 如何解决此错误并继续格式化整个文件？在

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

更改文本fi时出现UnicodeDecodeError

1 个回答

相关Python问题