我正在分析一个XML文件,其中包含一些作者姓名(í = í , ï = ï , ò = ò etc)
中的外语特殊字符。我的代码在尝试处理这些字符时遇到错误“ExpatError:undefined entity:”。我在网上看过beauthulsoup库,但不确定如何在不必重写lxml库的情况下轻松地将其实现到我的代码中(如果我的理解是正确的话)。解决这个问题的最好办法是什么?干杯!在
要加载的XML数据
<pub>
<ID>75</ID>
<title>Use of Lexicon Density in Evaluating Word Recognizers</title>
<year>2000</year>
<booktitle>Multiple Classifier Systems</booktitle>
<pages>310-319</pages>
<authors>
<author>Petr Slavík</author>
<author>Venu Govindaraju</author>
</authors>
</pub>
Python代码
^{pr2}$
如果您使用的是python3.x,只需导入
html
,您可以先对提取的数据进行解码在html.unescape(秒)
将字符串s中的所有命名和数字字符引用(例如,>;、>;、&x3e;)转换为相应的unicode字符。在
在xml.dom.minidom.parseString(字符串[,解析器])
返回表示字符串的文档。在
^{pr2}$UTF-8支持以下大多数字符:, 应该有用, 添加:
^{pr2}$相关问题 更多 >
编程相关推荐