在python cod上使用PDF

2024-09-27 22:19:20 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用python,我有一个pdf文件。我试图找到一个html,但我做不到。在pdf中我有一个表格,我需要里面的数据。我试图在html(我可以使用)和文本中更改它,但我只有一个奇怪的符号列表。你能帮助我吗?我的具体问题是:有没有可能用python提取PDF文件?我想把课文提取出来,然后再处理它(检查单词或时间)。这是公车时刻表)

filename = "bus.pdf"
import slate
with open('example.pdf') as f:
    doc = slate.PDF(f)
    print(doc)

Tags: 文件数据文本列表docpdfhtml时间
2条回答

Slate完成从PDF中提取文本的工作。您只需创建一个slate.PDF(open('file.pdf), 'r'))对象,将其分配给一个变量,然后打印它。

https://pypi.python.org/pypi/slate

github下载slate,然后执行import slate。另请参阅slate tutorial

>>> with open('example.pdf') as f:
...    doc = slate.PDF(f)
...
>>> doc
[..., ..., ...]
>>> doc[1]
'Text from page 2...'

相关问题 更多 >

    热门问题