从pdf文档中轻松提取文本。

slate3k的Python项目详细描述


这个项目是一帆风顺的

原始项目是https://github.com/timClicks/slate。不支持python3。 我感谢原作者@timclicks和其他撰稿人。

板岩

slate是一个python包,它简化了提取过程 PDF文件中的文本。这取决于pdfminer包。

slate提供了一个类,pdf。pdf接受一个类似文件的对象 将从文档中提取所有文本,表示每一页 作为文本字符串:

>>> with open('example.pdf', 'rb') as f:
...    doc = slate.PDF(f)
...
>>> doc
[..., ..., ...]
>>> doc[1]
'Text from page 2...'

如果您的pdf受密码保护,请将密码作为 第二个参数:

>>> with open('secrets.pdf', 'rb') as f:
...     doc = slate.PDF(f, 'password')
...
>>> doc[0]
"My mother doesn't know this, but..."

更复杂的操作

如果您想访问图像、字体文件和其他 信息,然后花点时间学习pdfminer api。

pdfminer怎么了?

  1. 做一些简单的事情,比如提取文本 相当复杂。程序的设计不是为了返回 python对象,这使得接口变得烦人。
  2. 这是一套极其完整的工具 以及中等陡峭的学习曲线。
  3. 写这篇文章的时候并没有考虑到黑客的能力。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java字符串。替换(regex,string)以替换XML中的内容   java Spring SOAP Web服务请求日志中XML请求有效负载的元素   java在一个类中保存作业对象并在另一个类中使用(初学者)   java无法定位com。西蒙图夫斯。奥内贾尔。在web启动中启动   java可以将Spring DAO合并到服务层吗?   使用互相关的声音文件的java时间延迟   java理解C中声明的数组指针算法   regex如何在Java中找到第一个未替换的引号?   当存在插入Spring数据JPA时进行java数据库轮询   java Axis客户端调用引发classcast异常   JavaFX ControlFX对话框中的java动作按钮css样式   使用iText Java获取空页计数   返回随机文本字段输入的java   java从spring boot stomp连接到外部activemq   java控制台错误无法找到或加载主类   java NoClassDefFoundError在尝试使用JarSigner对apk文件进行签名时出错。exe   GuavaJava:对象列表到字符串列表的可能转换   java PropertyPlaceHolderConfiguration和ResourceBundleMessageSource   java无法在回调中赋值   用于旋转变换的java简洁类(减少冗余)