解码CSV-fi中的UTF8字面值

import pandas as pd file_open = pd.read_csv("/Users/Downloads/tweets.csv") file_open["text"]=file_open["text"].str.replace("b\'", "") file_open["text"]=file_open["text"].str.encode('ascii').astype(str) file_open["text"]=file_open["text"].str.replace("b\"", "")[:-1] print(file_open["text"])

1条回答

网友

1楼 · 发布于 2024-09-23 04:23:07

b"it\\xe2\\x80\\x99s time to eat"听起来你的文件包含转义编码。在

通常，您可以将其转换为一个适当的Python3字符串，方法如下：

x = b"it\\xe2\\x80\\x99s time to eat"
x = x.decode('unicode-escape').encode('latin1').decode('utf8')
print(x)     # it’s time to eat

（使用.encode('latin1')explained here）

因此，如果在使用pd.read_csv(..., encoding="utf8")之后仍然有转义字符串，可以执行以下操作：

^{pr2}$

但我认为最好是对整个文件执行此操作，而不是单独对每个值执行此操作，例如使用StringIO（如果文件不是太大）：

from io import StringIO

# Read the csv file into a StringIO object
sio = StringIO()
with open('yourfile.csv', 'r', encoding='unicode-escape') as f:
    for line in f:
        line = line.encode('latin1').decode('utf8')
        sio.write(line)
sio.seek(0)    # Reset file pointer to the beginning

# Call read_csv, passing the StringIO object
df = pd.read_csv(sio, encoding="utf8")

相关问题更多 >

编程相关推荐

热门问题

热门文章