基于xpdf4.02的强大Pythonic PDF处理库

pyxpdf的Python项目详细描述


pyxpdf是一个快速且节省内存的python模块,用于基于xpdf阅读器源解析PDF文档。在

docsRead the Docs
testsAzure DevOps builds (branch)Travis (.com)Codecov
packagePyPIPyPI - Python VersionPyPI - WheelPyPI - Downloads
licenseGitHub

特点

  • 几乎是纯基于python的pdf解析器的x20倍(参见Speed Comparison
  • 在保持原始文档布局的同时提取文本(尽可能)
  • 支持几乎所有的PDF编码、CMAP和预定义的CMAP。在
  • 提取LZW、RLE、CCITTFax、DCT、JBIG2和JPX压缩图像和图像掩码及其BBox。在
  • 将PDF页面呈现为图像,支持“1”、“L”、“LA”、“RGB”、“RGBA”和“CMYK”颜色模式。在
  • {可选,除了^ 2}没有
  • 线程安全的

许可证

pyxpdf是在GNU通用公共许可证(GPL)版本3下授权的。参见LICENSE

学分

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
尝试连接到Red5服务器时出现java问题   java实现Runnable的类被认为是ExecutorServices的“Runnable任务”?   java struts2类中的多个@validation   java未能应用插件[class'org.gradle.api.plugins.scala.ScalaBasePlugin']:gradle v2。13   如何使用Java流仅收集长度最大的元素?   从spring引导应用程序连接到firestore的java引发空指针异常   java从SQLite插入和获取真实数据类型会为连续插入获取空值吗?   当存在未知数量的空格时,使用java替代正向查找   部署如何为当今的浏览器部署java小程序(小程序、嵌入、对象)?   @OneToMany和@ManyToOne@Formula之间的java双向关系返回null   java为什么在我的例子中,协议缓冲区的性能比JSON差?   如何部署混合C++/Java(JNI)应用程序?   java如何在程序中显示字符串的完整信息。反恐精英?   java在Hibernate中从持久性上下文中分离实体中的实体