提取嵌入在pdf文档中的财务表 - 问答 - Python中文网

提取嵌入在pdf文档中的财务表

2024-06-26 10:41:07 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我试图分析公司的年度报告，这些报告是pdf格式的（来自年报网). 我已经下载了大约5000个pdf文档，每个文档都有文本和表格数据。我希望提取这些pdf文档中的财务数据表，并将其保存到excel文件中。在

我尝试了基于tabla、PyPDF2、Regexp和NLTK的解决方案但每次，我的解决方案中似乎都会出现误报（字符没有检测到，pdf中的正确页面没有提取出来等等）。有没有python解决这个问题的方法？也愿意探索其他语言的解决方案（比如VBA？）在

这里有一些我正在处理的文件的例子

http://annualreports.com/HostedData/AnnualReportArchive/a/NYSE_ATEN_2015.pdf
http://annualreports.com/HostedData/AnnualReportArchive/a/NASDAQ_AEIS_2016.pdf http://annualreports.com/HostedData/AnnualReportArchive/A/LSE_ALM_2016.pdf

感谢您抽出时间！在

Tags：文件文档文本 com http pdf 格式报告

0条回答

目前没有回答

相关问题更多 >

编程相关推荐

热门问题

热门文章