从pdf文档中提取页面

pdfpages的Python项目详细描述


https://img.shields.io/pypi/v/pdfpages.svg?style=flat-square:https://pypi.python.org/pypi/pdfpages:https://img.shields.io/github/license/philbooth/pdfpages.svg?style=flat-square:target:https://opensource.org/licenses/MIT

从pdf文档中提取特定页面。

这是什么?

python包 从pdf文档中提取页面的 并将它们写入一个新的pdf文件。

如何安装?

通过PIP:

pip install pdfpages

或者如果您只是想要git repo:

git clone git@github.com:philbooth/pdfpages.git

如何在命令行上运行它?

pdfpages -o out.pdf in.pdf

-o选项 用于指定 输出路径 最后的论点 是输入文档的路径。 您可以指定 多输入文件 通过列出更多路径 命令结束时:

pdfpages -o out.pdf in1.pdf in2.pdf
pdfpages -o out.pdf in/*.pdf

没有其他理由, 默认行为是 提取第一页 从每个输入文档 写下结果 输出pdf。

如果你想提取特定的页面, 您可以使用-p选项。 例如, 只提取第二页 从每个输入文档 你会跑:

pdfpages -p 2 -o out.pdf in/*.pdf

或摘录第二页和第三页 从每个文档:

pdfpages -p 2 3 -o out.pdf in/*.pdf

你也可以使用 -f-c选项 指定页码范围。 例如, 摘抄前一百页 从每个文档:

pdfpages -f 1 -c 100 -o out.pdf in/*.pdf

或提取 第200页:

pdfpages -f 101 -c 100 -o out.pdf in/*.pdf

可以排除特定页面 从这些范围 使用-e选项。 例如, 排除第三页 从前五页开始 每个输入文档的数量:

pdfpages -f 1 -c 5 -e 3 -o out.pdf in/*.pdf

最后, 您可以看到使用信息 任何时候 使用-h选项:

python pdfpages.py -h

如何从python代码中调用它?

import pdfpages

pdfpages.extract(in_files, out_file, pages, exclude_pages)
  • in_files: 包含文件的元组 打开进行二进制读取 (模式"rb")。
  • out_file: 文件 打开进行二进制写入 (模式"wb")。
  • pages: 包含页码的元组 提取 (整数)。
  • exclude_pages: 包含页码的可选元组 从提取中排除 (整数)。 默认为空元组。

它是根据什么许可证发布的?

MIT

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java TestNG跨浏览器测试在启动第一个浏览器后失败   java如何根据本地存储数据设置默认下拉值和选择   数组Java程序以打印字符串中只有一次可用的字符   java A4j:commndButton和A4j:commandLink未显示在输出中   javajavax。servlet。Apache Karaf 2.3.0中的http包   如果对象是可序列化/可打包的,则java是可序列化/可打包的数组   如果实现了自动关闭,java Helper将调用close()?   java不能转换为org。springframework。奥姆。冬眠4。LocalSessionFactoryBean   java Eclipse不会启动JVM不兼容   java Hibernate关系错误   java我应该设置“从池中获取连接”的超时吗?   java Spring引导连接到docker服务mongodb   java NullPointerException从何而来?   java JSP使src url的结尾成为javascript变量   java spring父上下文和子上下文之间有什么区别?