2024-09-29 01:37:50 发布
网友
我有以下xml文档:
<package> <title>セレニティー (字幕版)</title> ... </package>
我使用lxml来解析标题,如下所示:
lxml
{{I>但是,当我使用这个cdi}的数据库时:
セレニティー (å—幕版)
我如何正确地解析title这里(セレニティー(字幕版)),这样我就可以对值进行INSERT。在
title
INSERT
实际上这对我来说是lxml本身的一个问题,他们假设每个人都默认使用ASCII/Latin-1,这很愚蠢。即使尝试在UTF-8中运行解析器也可能会返回错误,请尝试如下调用解析器:
parser = etree.HTMLParser(encoding='shift-jis')
据我所见,Shift-JIS仍然是日语页面中最常见的字符集。我的Python/lxml模块http://github.com/caio1982/Amazon-Wishlist使用上面的方法处理日语页面。在
确保MySQL实例也被设置为将Unicode存储为UTF-8。在
实际上这对我来说是lxml本身的一个问题,他们假设每个人都默认使用ASCII/Latin-1,这很愚蠢。即使尝试在UTF-8中运行解析器也可能会返回错误,请尝试如下调用解析器:
据我所见,Shift-JIS仍然是日语页面中最常见的字符集。我的Python/lxml模块http://github.com/caio1982/Amazon-Wishlist使用上面的方法处理日语页面。在
确保MySQL实例也被设置为将Unicode存储为UTF-8。在
相关问题 更多 >
编程相关推荐