擅长:python、mysql、java
<p>当页面使用脚本来生成内容时,就很难进行抓取。您需要一个能够在文档上执行脚本的完整虚拟环境,而不是普通的html读取。在</p>
<p>对于python,有<a href="http://jeanphix.me/Ghost.py/" rel="nofollow">^{<cd1>}</a>。它非常灵活,允许您检查完全呈现的网站,以及执行自己的javascript与页面交互。在</p>
<p><code>ghost.py</code>是<a href="http://phantomjs.org/" rel="nofollow">^{<cd3>}</a>库的python克隆。在我看来,第二个工具更好,但它不是为python编写的。在</p>