擅长:python、mysql、java
<p>挑战在于,一旦数据被web浏览器呈现出来,就要读取数据,这需要一些额外的技巧。如果您可以查看站点是否具有预渲染版本<sup>*</sup>或API。在</p>
<p><a href="https://web.archive.org/web/20150326024246/https://impythonist.wordpress.com/2015/01/06/ultimate-guide-for-scraping-javascript-rendered-web-pages/" rel="nofollow">This article (linked from the Web archive)</a>对您需要做的事情进行了很好的分解。但可以概括为:</p>
<ol>
<li>选择一个好的pythonwebkit呈现器(在文章PyQT中)</li>
<li>使用窗口小部件获取和呈现页面</li>
<li>从小部件获取呈现的HTML</li>
<li>使用lXML或beauthoulsoup之类的库正常解析这个HTML。在</li>
</ol>
<p><sup>*小题大做-希望得到一个静态网页的预渲染版本的想法激怒了我。</sup></p>