忽略XML标记之间的文本

""" test.xml <xyz> <pqr> <abc><a href="data:text/html;charset=utf-8,base64,JTNjc2NyaXB0JTNlYWxlcnQoIlhTUyIpO2hpc3RvcnkuYmFjaygpOyUzYy9zY3JpcHQlM2UiPjwvYT4=</abc> </pqr> <pqr> <abc><iframe src="data:text/html;charset=utf-8,base64,JTNjc2NyaXB0JTNlYWxlcnQoIlhTUyIpO2hpc3RvcnkuYmFjaygpOyUzYy9zY3JpcHQlM2UiPjwv</abc> </pqr> <xyz> """"

3条回答

网友

1楼 · 编辑于 2024-09-30 12:24:27

您可以先更改xml，然后使用cdata将格式不正确的xml括起来

示例：

<xyz>
      <pqr>
        <abc><![CDATA[<a href="data:text/html;charset=utf-8,base64,JTNjc2NyaXB0JTNlYWxlcnQoIlhTUyIpO2hpc3RvcnkuYmFjaygpOyUzYy9zY3JpcHQlM2UiPjwvYT4=]]></abc>
      </pqr>
      <pqr>
        <abc><![CDATA[<iframe src="data:text/html;charset=utf-8,base64,JTNjc2NyaXB0JTNlYWxlcnQoIlhTUyIpO2hpc3RvcnkuYmFjaygpOyUzYy9zY3JpcHQlM2UiPjwv]]></abc>
      </pqr>
<xyz>

参见：http://www.w3schools.com/xml/xml_cdata.asp

之后，您就可以使用pythonxml解析器了

网友

2楼 · 编辑于 2024-09-30 12:24:27

对您的XML片段进行了快速的视觉检查，我突然想到两件事：您的XML格式不好：

结束符<xyz>元素缺少斜杠：它应该是</xyz>
您的<a>和<iframe>元素也未闭合。在

网友

3楼 · 编辑于 2024-09-30 12:24:27

<xyz>标记不平衡（有两个开始标记），并且test.xml行是假的。您的<a>标记没有关闭，并且它的href属性没有被引用。和你的iframe标签一样。您使用的解析器应该告诉您在哪里遇到错误。修好它，你就可以走了。在

如果要解析xml，首先必须确保它是well formed XML。通常，可以进行一些修改，使原本无法解析的代码段成为格式良好的代码段，这样您就可以使用标准解析器了。在

相关问题更多 >

编程相关推荐

热门问题

热门文章