我正在尝试对从.doc、.docx和.pdf文件中获取文本的各种方法进行一些速度测试,结果发现Python的textract
看起来很有前途。我已经在Kali Linux(Debian)上安装了textract
及其所有依赖项,我只是想运行一个简单的测试:
import os
import sys
import textract
text = textract.process("/home/owain/Documents/Documents/file.doc")
我把这个文件命名为textract.py
,然后我发现它破坏了一些东西:Converting .doc to pure text using Python
我得到的错误
kali@Kali:~/Scripts/TestScripts$ time python tttt.py Traceback (most recent call last): File "tttt.py", line 3, in <module> import textract File "/home/owain/Scripts/TestScripts/textract.py", line 4, in <module> AttributeError: 'module' object has no attribute 'process'
所以我删除了textract
,删除了文本压缩.py文件并重新安装textract
。这没有工作,因为我仍然得到相同的上述错误,即使文件不存在了。不知道从这里去哪里,所以任何帮助将不胜感激!在
目前没有回答
相关问题 更多 >
编程相关推荐