一个纯基于python的实用程序,用于从docx文件中提取文本、超链接和图像。

docxp的Python项目详细描述


image0PyPI

这个项目是由 ankushshah89/python-docx2txt。 添加了一个新功能:提取超链接及其对应的 文本。

它是一个纯基于python的实用程序,可以从docx文件中提取文本。这个 代码取自并改编自 python-docx。它可以 不过,也可以从页眉、页脚和超链接中提取text。它 现在还可以提取images

如何安装?

pip install docxpy

怎么跑?

  1. 从命令行:
# extract text
docx2txt file.docx
# extract text and images
docx2txt -i /tmp/img_dir file.docx
  1. 来自python:
importdocxpyfile='file.docx'# extract texttext=docxpy.process(file)# extract text and write images in /tmp/img_dirtext=docxpy.process(file,"/tmp/img_dir")# if you want the hyperlinksdoc=docxpy.DOCReader(file)doc.process()# process filehyperlinks=doc.data['links']

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java在ArrayList中比较数字   java在Kotlin中使异步调用同步   让“Scala编程”junit示例在IntelliJ中工作的java问题   java Servlet侦听器未在ContextListener中设置属性   将Microsoft SQL Server数据库连接到我的Java项目   加载资源时出现java“需要注册工厂”异常   java如何使用POI检查excel中的重复记录?   java如何更改机器生成的代码   java如何确保重写的方法是同步的   用Spring编写Hibernate时的java XML奥秘   java管理mysql数据库中存储的用户权限   java如何运行。来自Javascript的jar方法   java我想在Web应用程序中进行身份验证&对桌面应用程序使用相同的凭据。我该怎么做?