PDF数据提取与NLP分析

2024-09-27 17:49:40 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试从不同公司的年报中自动提取数据(如工厂数量、员工人数等),并将数据填写在excel表格中的相关字段中。在

到目前为止,我在Python中考虑了以下过程:

  1. 获取PDF
  2. 转换为文本
  3. 使用NLP分析数据
  4. 回答预定义的问题
  5. 导出相关信息(如果找到)

问题是数据非常非结构化,而且各公司的年度报告格式也不尽相同。 有谁能提出一个更好的方法来自动完成这项任务吗?在


Tags: 数据文本信息数量nlppdf过程工厂

热门问题