擅长:python、mysql、java
<p>您可以考虑使用<a href="https://blog.scrapinghub.com/2015/03/02/handling-javascript-in-scrapy-with-splash/" rel="nofollow noreferrer">^{<cd1>}</a>,这将允许您刮取页面,以及许多其他spider功能。Scrapy与<a href="https://github.com/scrapinghub/splash" rel="nofollow noreferrer">^{<cd2>}</a>有很好的集成,这是一个可以用来在页面中执行javascript的库。Splash可以独立使用,也可以获得<a href="https://github.com/scrapy-plugins/scrapy-splash" rel="nofollow noreferrer">^{<cd3>}</a>。在</p>
<p>请注意,Splash基本上运行它自己的服务器来执行javascript,所以它是与主脚本一起运行并被调用的东西。Scrapy通过“中间件”(middleware)或对每个请求运行的一组进程进行管理:在您的例子中,您将获取页面,在Splash中运行Javascript,然后解析结果。在</p>
<p>这可能是一个比插入Selenium等稍轻的选项,尤其是如果您只想呈现页面而不是呈现页面,然后以自动化的方式与各个部分交互。在</p>