我正在使用python,我有一个pdf文件。我试图找到一个html,但我做不到。在pdf中我有一个表格,我需要里面的数据。我试图在html(我可以使用)和文本中更改它,但我只有一个奇怪的符号列表。你能帮助我吗?我的具体问题是:有没有可能用python提取PDF文件?我想把课文提取出来,然后再处理它(检查单词或时间)。这是公车时刻表)
filename = "bus.pdf"
import slate
with open('example.pdf') as f:
doc = slate.PDF(f)
print(doc)
Tags:
Slate
完成从PDF中提取文本的工作。您只需创建一个slate.PDF(open('file.pdf), 'r'))
对象,将其分配给一个变量,然后打印它。https://pypi.python.org/pypi/slate
从github下载slate,然后执行
import slate
。另请参阅slate tutorial相关问题 更多 >
编程相关推荐