我有一个关于从网站上抓取pdf文档的问题,不幸的是,这并不像我想的那么简单,因为pdf文档是作为网站的一部分嵌入的,并且是动态pdf
示例如下: https://www.morningstar.co.uk/uk/funds/snapshot/snapshot.aspx?id=F000011J7K&tab=14&DocumentId=7967b8f6f4115dce4464b808254383b5&Format=PDF->;这就是pdf的位置
上述地址实际上是从另一页获得的: https://www.morningstar.co.uk/uk/funds/snapshot/snapshot.aspx?id=F000011J7K&tab=12此页面,如果您单击pdf按钮,它将带您到粗体地址
抱歉没有任何代码,因为我甚至不知道如何开始
您的web scraper已从中识别出您的目标tab=12??
导致5个选项卡中的第5个选项卡=14°Document.PDF
稍后在iFrame中将其翻译为
我不知道您是如何从第2步处理到第3步的,但我们可以清楚地看到,如果我们将我们的目标文档ID=7967b8f6f4115dce4464b808254383b5输入到一个阅读器中 要使用
https://doc.morningstar.com/document/7967b8f6f4115dce4464b808254383b5.msdoc
下载,我们得到相关问题 更多 >
编程相关推荐