用lxml解析日语xml - 问答 - Python中文网

用lxml解析日语xml

2024-09-29 01:37:50 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有以下xml文档：

<package>
    <title>セレニティー (字幕版)</title> 
    ... 
</package>

我使用lxml来解析标题，如下所示：

^{pr2}$

{{I>但是，当我使用这个cdi}的数据库时：

ã‚»ãƒ¬ãƒ‹ãƒ†ã‚£ãƒ¼ (å—å¹•ç‰ˆ)

我如何正确地解析title这里（セレニティー（字幕版）），这样我就可以对值进行INSERT。在

Tags：文档数据库标题 package title xml lxml insert

2条回答

网友

1楼 · 编辑于 2024-09-29 01:37:50

实际上这对我来说是lxml本身的一个问题，他们假设每个人都默认使用ASCII/Latin-1，这很愚蠢。即使尝试在UTF-8中运行解析器也可能会返回错误，请尝试如下调用解析器：

parser = etree.HTMLParser(encoding='shift-jis')

据我所见，Shift-JIS仍然是日语页面中最常见的字符集。我的Python/lxml模块http://github.com/caio1982/Amazon-Wishlist使用上面的方法处理日语页面。在

网友

2楼 · 编辑于 2024-09-29 01:37:50

确保MySQL实例也被设置为将Unicode存储为UTF-8。在

相关问题更多 >

编程相关推荐

热门问题

热门文章