在python cod上使用PDF - 问答 - Python中文网

在python cod上使用PDF

2024-09-27 22:19:20 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在使用python，我有一个pdf文件。我试图找到一个html，但我做不到。在pdf中我有一个表格，我需要里面的数据。我试图在html（我可以使用）和文本中更改它，但我只有一个奇怪的符号列表。你能帮助我吗？我的具体问题是：有没有可能用python提取PDF文件？我想把课文提取出来，然后再处理它（检查单词或时间）。这是公车时刻表）

filename = "bus.pdf"
import slate
with open('example.pdf') as f:
    doc = slate.PDF(f)
    print(doc)

Tags：文件数据文本列表 doc pdf html 时间

2条回答

网友

1楼 · 编辑于 2024-09-27 22:19:20

Slate完成从PDF中提取文本的工作。您只需创建一个slate.PDF(open('file.pdf), 'r'))对象，将其分配给一个变量，然后打印它。

https://pypi.python.org/pypi/slate

网友

2楼 · 编辑于 2024-09-27 22:19:20

从github下载slate，然后执行import slate。另请参阅slate tutorial

>>> with open('example.pdf') as f:
...    doc = slate.PDF(f)
...
>>> doc
[..., ..., ...]
>>> doc[1]
'Text from page 2...'

相关问题更多 >

编程相关推荐

热门问题

热门文章