用lxml解析日语xml

2024-09-29 01:37:50 发布

您现在位置:Python中文网/ 问答频道 /正文

我有以下xml文档:

<package>
    <title>セレニティー (字幕版)</title> 
    ... 
</package>

我使用lxml来解析标题,如下所示:

^{pr2}$

{{I>但是,当我使用这个cdi}的数据库时:

セレニティー (字幕版)

我如何正确地解析title这里(セレニティー(字幕版)),这样我就可以对值进行INSERT。在


Tags: 文档数据库标题packagetitlexmllxmlinsert
2条回答

实际上这对我来说是lxml本身的一个问题,他们假设每个人都默认使用ASCII/Latin-1,这很愚蠢。即使尝试在UTF-8中运行解析器也可能会返回错误,请尝试如下调用解析器:

parser = etree.HTMLParser(encoding='shift-jis')

据我所见,Shift-JIS仍然是日语页面中最常见的字符集。我的Python/lxml模块http://github.com/caio1982/Amazon-Wishlist使用上面的方法处理日语页面。在

确保MySQL实例也被设置为将Unicode存储为UTF-8。在

相关问题 更多 >