Python slate3k包_程序模块 - PyPI

从pdf文档中轻松提取文本。

slate3k的Python项目详细描述

这个项目是一帆风顺的

原始项目是https://github.com/timClicks/slate。不支持python3。我感谢原作者@timclicks和其他撰稿人。

板岩

slate是一个python包，它简化了提取过程 PDF文件中的文本。这取决于pdfminer包。

slate提供了一个类，pdf。pdf接受一个类似文件的对象将从文档中提取所有文本，表示每一页作为文本字符串：

>>> with open('example.pdf', 'rb') as f:
...    doc = slate.PDF(f)
...
>>> doc
[..., ..., ...]
>>> doc[1]
'Text from page 2...'

如果您的pdf受密码保护，请将密码作为第二个参数：

>>> with open('secrets.pdf', 'rb') as f:
...     doc = slate.PDF(f, 'password')
...
>>> doc[0]
"My mother doesn't know this, but..."

更复杂的操作

如果您想访问图像、字体文件和其他信息，然后花点时间学习pdfminer api。

pdfminer怎么了？

做一些简单的事情，比如提取文本相当复杂。程序的设计不是为了返回 python对象，这使得接口变得烦人。
这是一套极其完整的工具以及中等陡峭的学习曲线。
写这篇文章的时候并没有考虑到黑客的能力。

欢迎加入QQ群-->： 979659372

slate3k 0.5.3

slate3k的Python项目详细描述

这个项目是一帆风顺的

板岩

更复杂的操作

pdfminer怎么了？

推荐PyPI第三方库

torchinceptionresnetv2

distributions-something-interesting

baizhanAsa

hamilton-sdk

jinyaml

eacc

scikitfmm

nutsfinder

opticsblola

scikitbio

ImageToAscii

pythonbioformats

requestscredssp

libpp

irons

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

slate3k 0.5.3

slate3k的Python项目详细描述

这个项目是一帆风顺的

板岩

更复杂的操作

pdfminer怎么了？

推荐PyPI第三方库

torchinceptionresnetv2

distributions-something-interesting

baizhanAsa

hamilton-sdk

jinyaml

eacc

scikitfmm

nutsfinder

opticsblola

scikitbio

ImageToAscii

pythonbioformats

requestscredssp

libpp

irons

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签