从pdf文档中轻松提取文本。

slate的Python项目详细描述


slate是一个python包,它简化了提取过程 PDF文件中的文本。这取决于pdfminer包。

slate提供了一个类,pdf。pdf接受一个类似文件的对象 将从文档中提取所有文本,表示每一页 作为文本字符串:

>>> with open('example.pdf') as f:
...    doc = slate.PDF(f)
...
>>> doc
[..., ..., ...]
>>> doc[1]
'Text from page 2...'

如果您的pdf受密码保护,请将密码作为 第二个参数:

>>> with open('secrets.pdf') as f:
...     doc = slate.PDF(f, 'password')
...
>>> doc[0]
"My mother doesn't know this, but..."

更复杂的操作

如果您想访问图像、字体文件和其他 信息,然后花点时间学习pdfminer api。

pdfminer怎么了?

  1. Getting simple things done, like extracting the text is quite complex. The program is not designed to return Python objects, which makes interfacing things irritating.
  2. It’s an extremely complete set of tools, with multiple and moderately steep learning curves.
  3. It’s not written with hackability in mind.

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
多次调用预期方法的java捕获参数(EasyMock)   java我试图得到某个学生的平均值,但它将所有值相加   使用Java更新文件中所有出现的字符串   java从依赖包导入Spring配置(*.xml)   在Java中,如何从不同的偏移量读取大块的字符串文件?   java 安卓 studio未在windows 8中运行   java getResourceAsStream()不读取任何内容   java Google Collections 1.0是否已经专业化?   模型视图控制器ASP。NET母版页在Java中的等效性   计时器TimerTask类在java中只能运行一次   多级继承和foreach Java循环   excel csv到xsl java,有一列带有某种货币(如$400)   java在来电时多次更改BlackBerry的callIncoming()   java通过JNLP启动JavaFX2.0应用程序会引发异常