2024-07-05 14:55:14 发布
网友
Possible Duplicate:solution to convert PDFs, DOCs, DOCXs into a textual format with python
我正在做一个文档搜索引擎,索引流行的二进制格式。为此,我正在寻找python库。
事实证明,要找到可靠的转换器太难了。PyPDF永远无法准确工作。请回复:
你可以试试开办公室。
转换技能高于平均水平。要编辑PDF文档,需要安装pdf import extension。
使用python有一些扩展,比如python-uno bridge,但是我遇到了一些困难,通常将open office作为一个子进程调用。
刚刚注意到你在下面重复了一个问题: solution to convert PDFs, DOCs, DOCXs into a textual format with python。。。
.doc
你可以试试开办公室。
转换技能高于平均水平。要编辑PDF文档,需要安装pdf import extension。
使用python有一些扩展,比如python-uno bridge,但是我遇到了一些困难,通常将open office作为一个子进程调用。
刚刚注意到你在下面重复了一个问题: solution to convert PDFs, DOCs, DOCXs into a textual format with python。。。
.doc
可能是最难的。COM脚本是你的一个选择吗?也就是说,要求Word打开文件并将其导出为文本?有一个linux实用程序extracting text from MS word files in python。相关问题 更多 >
编程相关推荐