我正在为一个特定的网页编写一个web scraper,我正在使用“urllib2.Request(MyURL)”和“BeautifulSoup”来完成这项工作,但问题是MyURL中有一个页面分页,通过单击一个链接加载下一个页面(在同一个MyURL/页面中),在这个链接后面是一个javascript方法
{ javascript:__doPostBack('rptPagingBottom$ctl01$btnPage','') }.
现在如果不从Python执行这个Javascript函数,我就无法获得完整的页面列表。如何从Python调用此Javascript方法,以便获取该web页面的所有页面?
我发现了一个相关的问题here建议在哪里使用(Rhino,V8,SeaMonkey),但我根本没有得到这个。如果可能的话,我需要一些示例代码。
尝试Selenium处理此类脏工作(内联js、ajax页面加载)。它能够模拟浏览器使用python和浏览器驱动程序所能做的事情。
你可以通过搜索带有关键字“selenium crawler”的google来获得一些关于如何使用它作为爬虫程序的信息。
相关问题 更多 >
编程相关推荐