从CSV读取DataFrame时损坏的朝鲜语字符串

2024-07-04 04:59:55 发布

您现在位置:Python中文网/ 问答频道 /正文

我是韩国用户。在

当我从Pandas数据帧中读取.csv文件时,朝鲜语字符串断开如下:�����

英语很好。在

输入数据样本:

Unnamed: 0  ��������    �������ε�����   ��X��ǥ  ��Y��ǥ  �����ڵ� ������  ����߻���������  ����Ǽ�  ��������

0   165244  20131201    �ٻ�62175541 962170  1955410 331 ��������    1   2   18224.03

为什么韩文文本会被破坏?在


Tags: 文件csv数据字符串用户文本pandas样本
1条回答
网友
1楼 · 发布于 2024-07-04 04:59:55

您的文本格式是unicode,因此需要将其解码为utf-8

import csv
def unicode_reader('your_file_name',delimiter='your_delimiter', **kwargs):
     spamreader = csv.reader('your_file_name',delimiter='your_delimiter', **kwargs)
     for row in spamreader:
        yield [unicode(w, 'utf-8') for w in row]

reader = unicode_csv_reader(open('your_file_name'))
for tex in reader:
  print tex

相关问题 更多 >

    热门问题