Python中文
首页
教程
问答
标签
搜索
登录
注册
更改文本fi时出现UnicodeDecodeError
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我正在编写一个程序,它接收一个文本文件并生成另一个文本文件,其中: 1瑞典字母格式正确。 2所有非字母的单词都将被删除。 三。所有大写字母都已转换为小写字母。在</p> <p>这是我的代码:</p> <pre><code>import string infile = open("unigram.wfreq","r") outfile = open("bigram.txt","w") line = "Start" while line != "": line = infile.readline() wordandcount = line.split() word = wordandcount[0] ##Fix å ä ö. ## å == √• ä == √§ ö == √∂ if "√•" in word or "√§" in word or "√∂" in word: word = word.replace("√•","å") word = word.replace("√§","ä") word = word.replace("√∂","ö") if word.isalpha(): word = word.lower() outfile.write(word+"\n") print(line) </code></pre> <p>这是我的unigram.wordfreq公司文件:</p> ^{pr2}$ <p>运行该文件时,出现以下错误:</p> <pre><code>Traceback (most recent call last): File "formater.py", line 13, in <module> line = infile.readline() File "/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/codecs.py", line 321, in decode (result, consumed) = self._buffer_decode(data, self.errors, final) UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 2732-2733: invalid continuation byte </code></pre> <p>如果我看终端输出的末端,我会看到以下内容:</p> <pre><code>Omgångsstarten 1 nationssplittring 1 Handtvätten 1 Three 47 domherre 1 http://www.dryden.se 1 Getryggarna 1 mineraloljor 21 </code></pre> <p>如果我在unigram.wordfreq公司我希望在mineraljor后面看到生成错误的单词(对吗?),但我看到了:</p> <pre><code>Getryggarna 1 mineraloljor 21 MAYHEM 1 avv√§njer 1 tilltrasslad 1 EUROPEISKT 1 </code></pre> <p>在<code>mineraloljor</code>之后,有{<cd2>}。我不明白为什么这个词会引起错误,它没有什么不同!在</p> <p>如何解决此错误并继续格式化整个文件?在</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>所以我找到了解决这个问题的简单方法。我用升华文本2打开了我的wfreq文件,在那里我可以用编码utf-8保存它。这就解决了瑞典字母问题。我还将扩展名改为.txt。之后,我再次运行python代码(更改了文件名并删除了åä-part),它运行得很好。在</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
为什么在使用strptime时会出现未进行转换的数据错误?
6 回答
为什么在使用strptim时会出现这个datetime日期错误
3 回答
为什么在使用StyleFrame时索引列的标题不显示sf.至excel()?
7 回答
为什么在使用sum()函数时会发生“int”对象不可调用的错误?
2 回答
为什么在使用sympy.dsolve时会得到“'list'对象没有属性'func'”?
1 回答
为什么在使用tabla时会得到一个空的数据帧?
8 回答
为什么在使用tensorboard时需要add_graph()的第二个参数?
3 回答
为什么在使用TensorFlow Lite转换YOLOv4时,推断时间/大小没有改进?有什么可能的改进吗?
8 回答
为什么在使用Tensorflow加载训练批时会出现内存泄漏?
6 回答
为什么在使用tensorflow时会收到警告/错误(使用函数API,但未实现错误)
2 回答
为什么在使用tetpyclient发出POST请求时出现403错误?
9 回答
为什么在使用TextBlob时会出现HTTP错误?
3 回答
为什么在使用TFIDF时出现错误“IndexError:list index out of range”pyspark.ml.feature?
8 回答
为什么在使用timedelta格式化之后,我在python中的日期是错误的?
2 回答
为什么在使用timeit或exec函数时,函数中的变量不会在提供的全局命名空间中搜索?
3 回答
为什么在使用tkinter时不能使用复选框?
10 回答
为什么在使用todoistpythonapi时会返回这个奇怪的ID?
1 回答
为什么在使用TQM时,在调整图像大小时,处理时间会有很大的差异?
3 回答
为什么在使用Tweepy下载用户时间线时收到错误消息
7 回答
为什么在使用twitter帐户登录Django应用程序时重定向127.0.0.1:8000?
4 回答