从pdf文档中提取页面
pdfpages的Python项目详细描述
从pdf文档中提取特定页面。
- What is it?
- How do I install it?
- How do I run it on the command line?
- How do I call it from python code?
- What license is it released under?
这是什么?
python包 从pdf文档中提取页面的 并将它们写入一个新的pdf文件。
如何安装?
通过PIP:
pip install pdfpages
或者如果您只是想要git repo:
git clone git@github.com:philbooth/pdfpages.git
如何在命令行上运行它?
pdfpages -o out.pdf in.pdf
-o选项 用于指定 输出路径 最后的论点 是输入文档的路径。 您可以指定 多输入文件 通过列出更多路径 命令结束时:
pdfpages -o out.pdf in1.pdf in2.pdf pdfpages -o out.pdf in/*.pdf
没有其他理由, 默认行为是 提取第一页 从每个输入文档 写下结果 输出pdf。
如果你想提取特定的页面, 您可以使用-p选项。 例如, 只提取第二页 从每个输入文档 你会跑:
pdfpages -p 2 -o out.pdf in/*.pdf
或摘录第二页和第三页 从每个文档:
pdfpages -p 2 3 -o out.pdf in/*.pdf
你也可以使用 -f和-c选项 指定页码范围。 例如, 摘抄前一百页 从每个文档:
pdfpages -f 1 -c 100 -o out.pdf in/*.pdf
或提取 第200页:
pdfpages -f 101 -c 100 -o out.pdf in/*.pdf
可以排除特定页面 从这些范围 使用-e选项。 例如, 排除第三页 从前五页开始 每个输入文档的数量:
pdfpages -f 1 -c 5 -e 3 -o out.pdf in/*.pdf
最后, 您可以看到使用信息 任何时候 使用-h选项:
python pdfpages.py -h
如何从python代码中调用它?
import pdfpages pdfpages.extract(in_files, out_file, pages, exclude_pages)
- in_files: 包含文件的元组 打开进行二进制读取 (模式"rb")。
- out_file: 文件 打开进行二进制写入 (模式"wb")。
- pages: 包含页码的元组 提取 (整数)。
- exclude_pages: 包含页码的可选元组 从提取中排除 (整数)。 默认为空元组。