擅长:python、mysql、java
<ul>
<li>您可以通过解压缩它,然后在生成的文件夹结构中查找来对其进行排序。见<a href="https://stackoverflow.com/questions/116139/how-can-i-read-a-word-2007-docx-file">How can I search a word in a Word 2007 .docx file?</a>。</li>
<li>如果pyPDF不适合您,您可以使用<a href="http://en.wikipedia.org/wiki/Pdftotext" rel="nofollow noreferrer">pdftotext</a>作为子流程。</li>
<li><code>.doc</code>可能是最难的。COM脚本是你的一个选择吗?也就是说,要求Word打开文件并将其导出为文本?有一个linux实用程序<a href="https://stackoverflow.com/questions/125222/extracting-text-from-ms-word-files-in-python">extracting text from MS word files in python</a>。</li>
</ul>