PDF解析器

pdfmajor的Python项目详细描述


pdfmajor

Latest Releaselatest release

pdf major是完全重写PDFMiner.six。它是一个更轻量级的实现,对数据的假设更少。这个项目的最终目标是提供一个更简单、更快和更实用的库,无论是普通的还是低级的开发人员都可以在这个库上进行构建。

文档

full API documentation here

基本示例

frompdfmajor.interpreterimportPDFInterpreterforpageinPDFInterpreter("/path/to/pdf.pdf"):print("page start",page.page_num)foriteminpage:print(" >",item)print("page end",page.page_num)

为什么要重写?

PDFMiner设计为在python 2.7中运行,PDFMiner.six编写为python2和3提供跨版本支持。然而,在尝试在PDFMiner.six上构建和扩展之后,我发现很难扩展和标识有关pdf中编码的项的其他详细信息。这个库将尝试向最终用户公开尽可能多的信息,而不让他们仅仅依赖于xml或json导出。

功能

  • 基于生成器的函数提取方法
  • 分析、分析和转换pdf文档。
  • PDF-1.7规范支持。(几乎)
  • 字体颜色提取
  • 形状填充和笔划颜色提取
  • 支持中日韩语言和垂直书写脚本。
  • 支持多种字体类型(Type1、TrueType、Type3和CID)。
  • 基本加密(RC4)支持。

note:我们在此版本中执行了布局分析过程(不再有lttexthorizontal或lttextvertical)。虽然分组过程背后的数学是健全的,但布局分析过程与解析和解释过程的耦合产生了不友好的代码。可以通过在pdfmajor.interpreter.PageInterpreter类上运行自己的实现来恢复此功能,但目前不支持此功能。

如何安装

来源

  • 安装Python3.6.4或更新版本。

  • 克隆此回购协议

    git clone https://github.com/asosnovsky/pdfmajor

  • 安装回购

    python setup.py install

Pypi

  • 安装Python3.6.4或更新版本。

  • 安装回购

    pip install pdfmajor

条款和条件

(这就是所谓的mit/x许可证)

版权所有(c)2018-2019 Ariel Sosnovsky<;Ariel at Sosnovsky Dot ca>;

特此免费向任何人授予许可 获取此软件和相关文档的副本 文件(以下简称“软件”),用于在没有 限制,包括但不限于使用权, 复制、修改、合并、发布、分发、再授权和/或 出售软件副本,并允许 为此提供了软件,但须遵守以下规定 条件:

上述版权公告及本许可公告须 包含在软件的所有副本或大部分中。

软件按“原样”提供,不作任何保证 种类,明示的或暗示的,包括但不限于 适销性保证 目的和非侵犯。在任何情况下,作者或 版权持有人应对任何索赔、损害或其他 责任,无论是在合同、侵权行为或 否则,由 软件或软件中的使用或其他交易。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java为什么在ng构建之后使用404?   java Maven原型“quickstart”无法扩展其POM   java Arduino端口卡在满功率状态   java如何确保在参数化构造函数失败时不调用默认构造函数?   java检测Blackberry中的切换失败   java如何将安卓库(作为Angle)链接到Eclipse项目?   java压缩图片,但获取“未知压缩方法”   java无法对应该初始化的模拟实例进行测试   将现有eclipse项目导出到war文件时,java“模块名无效”   java如何防止AppletClassLoader在查找类/其他资源时击中服务器?   java正则表达式根据分隔组的分隔符的数量获取n个组   java在JLayeredPane后面与JPanel交互   Java中的xml Soap请求   webView中的java utf8代码页