从pdf文档中轻松提取文本。
slate3k的Python项目详细描述
这个项目是一帆风顺的
原始项目是https://github.com/timClicks/slate。不支持python3。 我感谢原作者@timclicks和其他撰稿人。
板岩
slate是一个python包,它简化了提取过程 PDF文件中的文本。这取决于pdfminer包。
slate提供了一个类,pdf。pdf接受一个类似文件的对象 将从文档中提取所有文本,表示每一页 作为文本字符串:
>>> with open('example.pdf', 'rb') as f: ... doc = slate.PDF(f) ... >>> doc [..., ..., ...] >>> doc[1] 'Text from page 2...'
如果您的pdf受密码保护,请将密码作为 第二个参数:
>>> with open('secrets.pdf', 'rb') as f: ... doc = slate.PDF(f, 'password') ... >>> doc[0] "My mother doesn't know this, but..."
更复杂的操作
如果您想访问图像、字体文件和其他 信息,然后花点时间学习pdfminer api。
pdfminer怎么了?
- 做一些简单的事情,比如提取文本 相当复杂。程序的设计不是为了返回 python对象,这使得接口变得烦人。
- 这是一套极其完整的工具 以及中等陡峭的学习曲线。
- 写这篇文章的时候并没有考虑到黑客的能力。