擅长:python、mysql、java
<p>@Gagravarr关于XHTML的评论,我发现Tika在读取文件时有一个<code>xmlContent</code>解析。我用它来捕获xml格式,并用regex来捕获它。在</p>
<p>我终于明白了:</p>
<pre><code>parsed_data_full = parser.from_file(file_name,xmlContent=True)
parsed_data_full = parsed_data_full['content']
</code></pre>
<p>每个页分隔符都有一个开始和结束,它以<code>"<div"</code>开始,并以第一次出现的<code>"</div>"</code>结束。基本上写了一个小代码来捕捉2个子字符串之间的子字符串,并根据我的具体要求存储到一个变量中。在</p>