擅长:python、mysql、java
<p>使用python是不必要的,而且在很多情况下都不起作用,最好的方法是运行一个适当的浏览器,并使用javascript来完成所有的抓取,因为它可以访问整个DOM,甚至可以绑定到事件。在</p>
<p>有很多好的无头浏览器支持脚本,我最喜欢的是<a href="http://phantomjs.org/" rel="nofollow">PhantomJS</a>,你可以用它来加载网页并将其刮取或保存为图像</p>
<pre><code>var page = require('webpage').create();
page.open('http://github.com/', function () {
page.render('github.png');
phantom.exit();
});
</code></pre>
<p>但是还有一些基于PhantomJS构建的框架,例如<a href="http://nrabinowitz.github.io/pjscrape/" rel="nofollow">pjscrape</a></p>