pandas read_csv编码奇怪的ch

2024-10-02 10:22:16 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图用pandas读取文本文件格式的数据集。但是,有些字符编码不正确。我有???撇号。在

如何正确编码我的文件?我试过了

  • encoding = "utf8"但我得到了UnicodeDecodeError: 'utf8' codec can't decode byte 0xc3 in position 2044: unexpected end of data

  • encoding = "latin1"但这给了我很多???

  • 但也没有给我编码。。。

当我在sublime中打开我的数据时,我得到了这个字符™. 在

更新:但是当我使用loc访问条目时,我得到了类似于\u0102\u02d8\xe2\x82\u0179\xc2\u015、\u0102\u02d8\xe2\x82\u0179\xe2\x84\u02d8


Tags: 文件数据pandas编码格式utf8字符encoding
1条回答
网友
1楼 · 发布于 2024-10-02 10:22:16

您可以使用chardet与{a1}:

$ pip install chardet

>>> import urllib
>>> rawdata = urllib.urlopen('http://yahoo.co.jp/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'encoding': 'EUC-JP', 'confidence': 0.99}

基本用法还建议如何使用它从大文件中推断编码,例如太大而无法读入内存的文件-它将读取文件,直到它对编码有信心为止。


根据this answer你应该试试encoding="ISO-8859-2"

My guess is that your input is encoded as ISO-8859-2 which contains Ă as 0xC3.


注意:Sublime可能也无法正确推断编码,因此您必须对它的输出持怀疑态度,最好与您的供应商(无论您从何处获取文件)核实实际编码是什么。。。

相关问题 更多 >

    热门问题