Python Parsr客户端将PDF、文档和图像转换为丰富的结构化数据

parsr-client的Python项目详细描述


Parsr客户端

通过Parsr工具的API提供一个python接口。 Parsr将PDF、文档和图像转换为丰富的结构化数据。在

https://github.com/axa-group/Parsr上查找有关Parsr的所有信息(包括下载)。在

1安装

pip install parsr-client

2使用

确保Parsr服务器已经在运行。假设地址是localhost:3001

2.1连接到Parsr服务器

^{pr2}$

2.2发送文件

parsr.send_document(file_path='README.pdf',config_path='defaultConfig.json'document_name='The Readme',save_request_id=True)

2.4检索结果

  1. 获取JSON格式的所有内容:

    parsr.get_json()
  2. 作为降价:

    parsr.get_markdown()
  3. 作为文本:

    parsr.get_text()
  4. 获取第一页上的第一张表:

    parsr.get_table(page=1,table=1,)
  5. 获取文档的所有版本:

    parsr.get_revisions('The Readme')
  6. 每个文档之间的连续修订:

    parsr.compare_revisions('The Readme',pretty_html=True)

3在本地解释整个JSON输出

提供的ParsrOutputInterpreter类可用于解释下载的JSON输出并生成更高级别的结构,如文本正文。在

下面是一个从上面的示例在第一页生成文本正文的示例。在

fromparsr_clientimportParsrOutputInterpreterparsr_interpreter=ParsrOutputInterpreter(parsr.get_json())t=parsr_interpreter.get_text(page_number=1)print(t)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
CentOS上的java Spring Boot简易应用程序需要很长时间才能启动   java如何检查字符串值是否等于null?   收集器中的java映射值。分组方式()   java需要支持Azure AD B2C webapp集成   java如何加入线程以停止它?   java如何使用意图传递类的对象?   java如何在战争环境中发现CDI生产者?   多模块项目中java奇怪的编译器行为   java如何在web应用程序中管理密码?   java从http服务器、filehandler中删除冗余代码   java使用反射来获取泛型类的字段   java Spring MVC/Hibernate/MySQL 400错误请求错误   给定正整数a的java幂为3   在Java中将元素拆分为不同数量的列表?   java展开折叠窗格