提取嵌入在pdf文档中的财务表

2024-06-26 10:41:07 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图分析公司的年度报告,这些报告是pdf格式的(来自年报网). 我已经下载了大约5000个pdf文档,每个文档都有文本和表格数据。我希望提取这些pdf文档中的财务数据表,并将其保存到excel文件中。在

我尝试了基于tabla、PyPDF2、Regexp和NLTK的解决方案 但每次,我的解决方案中似乎都会出现误报(字符没有检测到,pdf中的正确页面没有提取出来等等)。有没有python解决这个问题的方法?也愿意探索其他语言的解决方案(比如VBA?)在

这里有一些我正在处理的文件的例子

http://annualreports.com/HostedData/AnnualReportArchive/a/NYSE_ATEN_2015.pdf
http://annualreports.com/HostedData/AnnualReportArchive/a/NASDAQ_AEIS_2016.pdfhttp://annualreports.com/HostedData/AnnualReportArchive/A/LSE_ALM_2016.pdf

感谢您抽出时间!在


Tags: 文件文档文本comhttppdf格式报告