擅长:python、mysql、java
<p>考虑使用<cd1}。当我看到真正的格式错误的XML,可能会有很多不同的问题时,试着把问题分成小部分。在</p>
<p>您提到您有一个非常大的XML文件,它可能有许多记录,您可以串行处理。每个记录(例如<code><item>...</item></code>都有一个开始和结束标记,大概-这些将是您的恢复点。在</p>
<p><a href="http://docs.python.org/library/xml.sax.html" rel="nofollow">In ^{<cd1>} you provide the reader, the handler, and the input sources</a>。更糟的是,使用这种技术,单个记录将无法恢复。它的设置稍微多了一点,但增量解析格式错误的feed一次记录坏记录可能是最好的方法。在</p>
<p>在日志中,请确保为自己提供足够的信息来重建原始记录,这样您就可以为毫无疑问必须处理的所有情况添加额外的恢复代码(例如,创建一个badrecords\{<cd4>}.xml,以便手动重新处理)。在</p>
<p>祝你好运。在</p>