基于xpdf4.02的强大Pythonic PDF处理库
pyxpdf的Python项目详细描述
pyxpdf是一个快速且节省内存的python模块,用于基于xpdf阅读器源解析PDF文档。在
docs | |
---|---|
tests | |
package | |
license |
特点
- 几乎是纯基于python的pdf解析器的x20倍(参见Speed Comparison)
- 在保持原始文档布局的同时提取文本(尽可能)
- 支持几乎所有的PDF编码、CMAP和预定义的CMAP。在
- 提取LZW、RLE、CCITTFax、DCT、JBIG2和JPX压缩图像和图像掩码及其BBox。在
- 将PDF页面呈现为图像,支持“1”、“L”、“LA”、“RGB”、“RGBA”和“CMYK”颜色模式。在
- {可选,除了^ 2}没有
- 线程安全的
更多信息
许可证
pyxpdf是在GNU通用公共许可证(GPL)版本3下授权的。参见LICENSE
学分
- xpdf reader作者:德里克·诺恩堡
- lxml-根据lxml改编的项目结构和构建
- poppler项目
- 项目
标签: