从popup wind下载pdf的Python包

2024-05-03 13:42:44 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在尝试编写一个web scraper，它从剑桥在线图书中获取一个给定的url，下载各个章节并将它们连接成一个pdf文件，例如http://ebooks.cambridge.org/ebook.jsf?bid=CBO9781139171540。在

不幸的是，pdf似乎没有存储在任何类似目录的结构中，而是通过某种api进行查询。在

书中章节的url示例可能类似于：

http://ebooks.cambridge.org/pdf_viewer.jsf?cid=CBO9781139171540A003&ref=false&pubCode=CUP&urlPrefix=cambridge&productCode=cbo

我不清楚如果我只是想下载它，我会得到什么样的文件，尽管这个网址打开了Chrome的pdf阅读器想要的章节。在

从其他阅读资料来看，似乎有一些解释器，比如Splinter，可以从python中打开web页面。在

目前，对我来说最可行的方法是在python脚本中通过类似splitter的方式打开页面，在弹出窗口中单击打开pdf的相关链接，然后从弹出窗口下载pdf文件，就像人类通过python那样做。这种操作有好的包装吗？在

或者，如果有其他办法解决这个问题，我们将不胜感激。在

编辑：我应该澄清一下，传统的beauthoulsoup方法面临的主要挑战是pdf的url不是实际的pdf本身，而是通过Ajax加载pdf的html页面。例如，我链接的章节url，如果下载的话，看起来像：

^{pr2}$

也许我只是不太了解Ajax，但我不太清楚应该用urllib和beauthoulsoup打开/下载什么。在

再次感谢！在

Tags：文件方法 org web http url pdf 链接

0条回答

目前没有回答