擅长:python、mysql、java
<blockquote>
<p>There is no generic why to extract
information from every file format.
You need to know the format to know
how to extract the information.</p>
</blockquote>
<p>只是想先说明一下。因此,您应该寻找能够转换/提取所需信息的库和软件。正如Ofir提到的,微软已经为他们的格式提供了相应的工具。在</p>
<p>但是如果你不能这样做,并且想冒险在文件中看到你认为有趣的文本,你可以做一个普通的读取,并寻找将建立文本的字节序列。接下来的问题是,在我的文本搜索中,我应该支持哪些语言/字符集。是多字节文本吗?在</p>
<p>一个简单的开始是遍历数据并查找[a-zA-z0-9_-]的序列来找到文本。但单词可能是多字节的。所以你应该把双字节扫描成一个字符。在</p>
<p><strong>注意</strong>:一些新格式,如openoffice和docx是压缩容器中的多个文件。因此,您需要先对文件进行反压缩,然后在查找的文本之后扫描XML文档。在</p>