Python中文
首页
教程
问答
标签
搜索
登录
注册
Python中的汉字编码错误
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我是一个初学者,在Python2.7中很难将几十个包含数字+简体中文字符的CSV文件解码为UTF-8。</p> <p>我不知道输入文件的编码,所以我已经尝试了所有可能的编码——GB18030、UTF-7、UTF-8、UTF-16和UTF-32(LE&BE)。另外,为了更好地测量,GBK和GB3212,尽管它们应该是gb8030的子集。UTF中的所有字符在到达第一个汉字时都会停止。除GB18030外,其他编码在第一行的某个地方停止。我认为这是解决办法,因为它能读懂前几个文件,并能很好地解码它们。我的代码的一部分,逐行阅读,是:</p> <pre><code>line = line.decode("GB18030") </code></pre> <p>我试图解码的前两个文件运行良好。在第三个文件的中途,Python抛出</p> <pre><code>UnicodeDecodeError: 'gb18030' codec can't decode bytes in position 168-169: illegal multibyte sequence </code></pre> <p>在这个文件中,大约一百万行中有5个这样的错误。</p> <p>我在文本编辑器中打开输入文件,检查哪些字符给出了解码错误,前几个字符在CSV文件的特定列中都有欧元符号。我很有信心这些都是错别字,所以我想删除欧元字符。我想逐一检查编码错误的类型;我想去掉所有的欧元错误,但不想忽略其他错误,直到我首先看到它们。</p> <p>编辑:我使用了<code>chardet</code>,它将GB2312作为所有文件的.99置信度编码。我试着用GB2312解码得到:</p> <pre><code>UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 108-109: illegal multibyte sequence </code></pre>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>你可以试试<a href="http://chardet.feedparser.org/" rel="nofollow">chardet</a>。</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
尽管Python中的所有内容都是引用,为什么Python导师在没有指针的列表中绘制字符串和整数?
2 回答
尽管python中的表达式为false,但循环仍在运行
9 回答
尽管python代码正确,但从nifi ExecuteScript处理器获取语法错误
2 回答
尽管Python在Neovim中工作得很好,但插件不能识别Neovim中的Python主机
9 回答
尽管python字典包含了大量的条目,但它并没有增长
9 回答
尽管python说模块存在,为什么我会得到这个消息?
8 回答
尽管setuptools和控制盘是最新的,但无法识别singleversionexternallymanaged
2 回答
尽管stdout和stderr重定向,但未捕获错误消息
3 回答
尽管Tensorboard的事件太大,但Tensorboard的步骤太少了
10 回答
尽管tkinter上的变量已更改,但显示未更改
6 回答
尽管try/except使用Python进行单元测试时出现断言错误
1 回答
尽管URL是sam,但仍会抛出“达到最大重定向”
6 回答
尽管url有效,Pandas仍读取url的\u csv错误
9 回答
尽管while中存在时间延迟,但LINUX线程的CPU利用率为100%(1)
3 回答
尽管x0在范围内,Scipy优化仍会引发ValueError
9 回答
尽管xpath正确,但使用selenium单击链接仍不起作用
8 回答
尽管下载了ffmpeg并设置了路径变量python,但没有后端错误
3 回答
尽管下载了i,但找不到型号“fr”
9 回答
尽管下载了plotnine包,但未获取名为“plotnine”的模块时出错
10 回答
尽管为所有行指定了权重,网格(0)仍不起作用
4 回答