从popup wind下载pdf的Python包

2024-05-03 13:42:44 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试编写一个web scraper,它从剑桥在线图书中获取一个给定的url,下载各个章节并将它们连接成一个pdf文件,例如http://ebooks.cambridge.org/ebook.jsf?bid=CBO9781139171540。在

不幸的是,pdf似乎没有存储在任何类似目录的结构中,而是通过某种api进行查询。在

书中章节的url示例可能类似于:

http://ebooks.cambridge.org/pdf_viewer.jsf?cid=CBO9781139171540A003&ref=false&pubCode=CUP&urlPrefix=cambridge&productCode=cbo

我不清楚如果我只是想下载它,我会得到什么样的文件,尽管这个网址打开了Chrome的pdf阅读器想要的章节。在

从其他阅读资料来看,似乎有一些解释器,比如Splinter,可以从python中打开web页面。在

目前,对我来说最可行的方法是在python脚本中通过类似splitter的方式打开页面,在弹出窗口中单击打开pdf的相关链接,然后从弹出窗口下载pdf文件,就像人类通过python那样做。这种操作有好的包装吗?在

或者,如果有其他办法解决这个问题,我们将不胜感激。在

编辑:我应该澄清一下,传统的beauthoulsoup方法面临的主要挑战是pdf的url不是实际的pdf本身,而是通过Ajax加载pdf的html页面。例如,我链接的章节url,如果下载的话,看起来像:

^{pr2}$

也许我只是不太了解Ajax,但我不太清楚应该用urllib和beauthoulsoup打开/下载什么。在

再次感谢!在


Tags: 文件方法orgwebhttpurlpdf链接