我有一个大的XML文件(200万个对象的详细信息),其内容如下所示。文件大小为657MB
<?xml version="1.0" encoding="UTF-8?>
<root>
<item>
<rank>1</rank>
<landinglink>www.google.com</landinglink>
<descrip>some text</descrip>
</item>
<item>
<rank>1</rank>
<landinglink>www.facebook.com</landinglink>
<descrip>some text</descrip>
</item>
<item>
<rank>1</rank>
<landinglink>www.xyz.com</landinglink>
<descrip>some text</descrip>
</item>
.
.
.
.
.
.
.
</root>
我正在打印所有的“着陆链接”。我使用的代码如下所示。在
^{pr2}$但是在执行代码时,它给了我以下错误。在
Traceback (most recent call last):
File "D:/test.py", line 2, in <module>
for event, elem in ET.iterparse("filename.xml"):
File "<string>", line 91, in next
cElementTree.ParseError: not well-formed (invalid token): line 1338, column 298
此错误在不同的位置不断重复。如何避免这类错误。任何帮助将不胜感激。在
(作为对以后读者的回答)
如果错误的标记值是
\xA0
,则文件没有正确编码为utf-8。如果文件只有8位字符,则需要将XML声明更改为其他内容,可能是
<?xml version="1.0" encoding="iso-8859-1" ?>
。在相关问题 更多 >
编程相关推荐