Python,scrape动态PDF

2024-09-28 23:49:25 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个关于从网站上抓取pdf文档的问题,不幸的是,这并不像我想的那么简单,因为pdf文档是作为网站的一部分嵌入的,并且是动态pdf

示例如下: https://www.morningstar.co.uk/uk/funds/snapshot/snapshot.aspx?id=F000011J7K&tab=14&DocumentId=7967b8f6f4115dce4464b808254383b5&Format=PDF->;这就是pdf的位置

上述地址实际上是从另一页获得的: https://www.morningstar.co.uk/uk/funds/snapshot/snapshot.aspx?id=F000011J7K&tab=12此页面,如果您单击pdf按钮,它将带您到粗体地址

抱歉没有任何代码,因为我甚至不知道如何开始


Tags: 文档httpsidpdf网站地址wwwsnapshot
1条回答
网友
1楼 · 发布于 2024-09-28 23:49:25

您的web scraper已从中识别出您的目标tab=12??

https://www.morningstar.co.uk/uk/funds/snapshot/snapshot.aspx?id=F000011J7K&tab=12

导致5个选项卡中的第5个选项卡=14°Document.PDF

https://www.morningstar.co.uk/uk/funds/snapshot/snapshot.aspx?id=F000011J7K&tab=14&DocumentId=7967b8f6f4115dce4464b808254383b5&Format=PDF

稍后在iFrame中将其翻译为

https://doc.morningstar.com/document/7967b8f6f4115dce4464b808254383b5.msdoc/?clientid=euretailsite

我不知道您是如何从第2步处理到第3步的,但我们可以清楚地看到,如果我们将我们的目标文档ID=7967b8f6f4115dce4464b808254383b5输入到一个阅读器中 要使用https://doc.morningstar.com/document/7967b8f6f4115dce4464b808254383b5.msdoc下载,我们得到enter image description here

  1. 加载第1页,共100页
  2. 查找最后一个具有DocumentId的选项卡
  3. 读身份证
  4. 下载具有该ID的文档
  5. 吃-睡-读-重复

相关问题 更多 >