我试图用pandas读取文本文件格式的数据集。但是,有些字符编码不正确。我有???撇号。在
如何正确编码我的文件?我试过了
encoding = "utf8"
但我得到了UnicodeDecodeError: 'utf8' codec can't decode byte 0xc3 in position 2044: unexpected end of data
。
encoding = "latin1"
但这给了我很多???
但也没有给我编码。。。
当我在sublime中打开我的数据时,我得到了这个字符™. 在
更新:但是当我使用loc访问条目时,我得到了类似于\u0102\u02d8\xe2\x82\u0179\xc2\u015、\u0102\u02d8\xe2\x82\u0179\xe2\x84\u02d8
您可以使用chardet与{a1}:
基本用法还建议如何使用它从大文件中推断编码,例如太大而无法读入内存的文件-它将读取文件,直到它对编码有信心为止。
根据this answer你应该试试
encoding="ISO-8859-2"
:注意:Sublime可能也无法正确推断编码,因此您必须对它的输出持怀疑态度,最好与您的供应商(无论您从何处获取文件)核实实际编码是什么。。。
相关问题 更多 >
编程相关推荐