读取包含UTF8 xml文件的zip时出现问题

def parse(self, fp): # open/decompress zip file with zipfile.ZipFile(fp, 'r') as f: # get all files in zip comp_files = f.namelist() for comp_file in comp_files: cfp = f.open(comp_file, 'r') # parse xml tree = ElementTree.parse(cfp) ...parsing...

1条回答

网友

1楼 · 发布于 2024-05-18 18:22:22

您看到的结果是UTF-8被错误地解码为拉丁语-1/iso-8859-1：

>>> x=u'Курс карбованца к доллару не изменился на Украинской Межбанковской Валютной Бирже (УМВБ) - 176.100.'
>>> print x.encode('utf8').decode('latin1')
ÐÑÑÑ ÐºÐ°ÑÐ±Ð¾Ð²Ð°Ð½ÑÐ° Ðº Ð´Ð¾Ð»Ð»Ð°ÑÑ Ð½Ðµ Ð¸Ð·Ð¼ÐµÐ½Ð¸Ð»ÑÑ Ð½Ð° Ð£ÐºÑÐ°Ð¸Ð½ÑÐºÐ¾Ð¹ ÐÐµÐ¶Ð±Ð°Ð½ÐºÐ¾Ð²ÑÐºÐ¾Ð¹ ÐÐ°Ð»ÑÑÐ½Ð¾Ð¹ ÐÐ¸ÑÐ¶Ðµ (Ð£ÐÐÐ) - 176.100.

我将以下通过记事本++编码的文本保存为一个单独的文件，编码为UTF-8，不带BOM-zipfile：

^{pr2}$

修改代码以使其可运行：

from xml.etree import ElementTree
import zipfile

def parse(fp):
    # open/decompress zip file
    with zipfile.ZipFile(fp, 'r') as f:
        # get all files in zip
        comp_files = f.namelist()
        for comp_file in comp_files:
            cfp = f.open(comp_file, 'r')
            # parse xml
            tree = ElementTree.parse(cfp)
            print tree.getroot().text
            print type(tree.getroot().text)

parse(open('file.zip'))

结果是：

Курс карбованца к доллару не изменился на Украинской Межбанковской Валютной Бирже (УМВБ) - 176.100.
<type 'unicode'>

所以在我看来，它只是在Linux机器上显示不正确，但是如果没有您正在使用的文件的实际示例，就很难进一步分析。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

读取包含UTF8 xml文件的zip时出现问题

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >