pandas read_csv编码奇怪的ch - 问答 - Python中文网

pandas read_csv编码奇怪的ch

2024-10-02 10:22:16 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我试图用pandas读取文本文件格式的数据集。但是，有些字符编码不正确。我有？？？撇号。在

如何正确编码我的文件？我试过了

encoding = "utf8"但我得到了UnicodeDecodeError: 'utf8' codec can't decode byte 0xc3 in position 2044: unexpected end of data。
encoding = "latin1"但这给了我很多？？？
但也没有给我编码。。。

当我在sublime中打开我的数据时，我得到了这个字符™. 在

更新：但是当我使用loc访问条目时，我得到了类似于\u0102\u02d8\xe2\x82\u0179\xc2\u015、\u0102\u02d8\xe2\x82\u0179\xe2\x84\u02d8

Tags：文件数据 pandas 编码格式 utf8 字符 encoding

1条回答

网友

1楼 · 发布于 2024-10-02 10:22:16

您可以使用chardet与{a1}：

$ pip install chardet

>>> import urllib
>>> rawdata = urllib.urlopen('http://yahoo.co.jp/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'encoding': 'EUC-JP', 'confidence': 0.99}

基本用法还建议如何使用它从大文件中推断编码，例如太大而无法读入内存的文件-它将读取文件，直到它对编码有信心为止。

根据this answer你应该试试encoding="ISO-8859-2"：

My guess is that your input is encoded as ISO-8859-2 which contains Ă as 0xC3.

注意：Sublime可能也无法正确推断编码，因此您必须对它的输出持怀疑态度，最好与您的供应商（无论您从何处获取文件）核实实际编码是什么。。。

相关问题更多 >

编程相关推荐

热门问题

热门文章