PDF解析器
pdfmajor的Python项目详细描述
pdfmajor
Latest Release |
pdf major是完全重写PDFMiner.six
的。它是一个更轻量级的实现,对数据的假设更少。这个项目的最终目标是提供一个更简单、更快和更实用的库,无论是普通的还是低级的开发人员都可以在这个库上进行构建。
文档
基本示例
frompdfmajor.interpreterimportPDFInterpreterforpageinPDFInterpreter("/path/to/pdf.pdf"):print("page start",page.page_num)foriteminpage:print(" >",item)print("page end",page.page_num)
为什么要重写?
PDFMiner
设计为在python 2.7中运行,PDFMiner.six
编写为python2和3提供跨版本支持。然而,在尝试在PDFMiner.six
上构建和扩展之后,我发现很难扩展和标识有关pdf中编码的项的其他详细信息。这个库将尝试向最终用户公开尽可能多的信息,而不让他们仅仅依赖于xml或json导出。
功能
- 基于生成器的函数提取方法
- 分析、分析和转换pdf文档。
- PDF-1.7规范支持。(几乎)
- 字体颜色提取
- 形状填充和笔划颜色提取
- 支持中日韩语言和垂直书写脚本。
- 支持多种字体类型(Type1、TrueType、Type3和CID)。
- 基本加密(RC4)支持。
note:我们在此版本中执行了布局分析过程(不再有lttexthorizontal或lttextvertical)。虽然分组过程背后的数学是健全的,但布局分析过程与解析和解释过程的耦合产生了不友好的代码。可以通过在pdfmajor.interpreter.PageInterpreter
类上运行自己的实现来恢复此功能,但目前不支持此功能。
如何安装
来源
安装Python3.6.4或更新版本。
克隆此回购协议
git clone https://github.com/asosnovsky/pdfmajor
安装回购
python setup.py install
Pypi
安装Python3.6.4或更新版本。
安装回购
pip install pdfmajor
条款和条件
(这就是所谓的mit/x许可证)
版权所有(c)2018-2019 Ariel Sosnovsky<;Ariel at Sosnovsky Dot ca>;
特此免费向任何人授予许可 获取此软件和相关文档的副本 文件(以下简称“软件”),用于在没有 限制,包括但不限于使用权, 复制、修改、合并、发布、分发、再授权和/或 出售软件副本,并允许 为此提供了软件,但须遵守以下规定 条件:
上述版权公告及本许可公告须 包含在软件的所有副本或大部分中。
软件按“原样”提供,不作任何保证 种类,明示的或暗示的,包括但不限于 适销性保证 目的和非侵犯。在任何情况下,作者或 版权持有人应对任何索赔、损害或其他 责任,无论是在合同、侵权行为或 否则,由 软件或软件中的使用或其他交易。