Python/pandas:如何正确读取编码为“cp1252”的西里尔文csv文件?

2024-09-28 01:23:02 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图将包含乌克兰议会投票的法案/问题信息的csv文件读入一个数据框。csv文件包含“名称问题”列,该列以乌克兰语显示账单/问题的标题。我将其读入数据框:

import pandas as pd

url = 'https://data.rada.gov.ua/ogd/zal/ppz/skl9/plenary_agenda-skl9.csv'
bills = pd.read_csv(url)
bills.head()

我得到了这个结果。似乎所有西里尔字母都被替换为“?”:

^{tb1}$

下载csv文件并使用this advice后,我检查了csv文件的编码。产出如下:

<_io.TextIOWrapper name='C:\\Users\\dryingmouth\\data\\bills\\plenary_agenda-skl9.csv' mode='r' encoding='cp1251'>

然后我编辑了代码,将编码指定为read_csv()函数的参数:

bills = pd.read_csv(url, encoding='cp1251')
bills.head()

但结果是一样的。如何正确显示此csv文件创建的数据框中的西里尔(乌克兰)字符


Tags: 文件csv数据url编码readdatahead

热门问题