擅长:python、mysql、java
<p>我刚读到一个完全不同的解决方案,我想我会分享这个问题:HTML快照(https://developers.google.com/webmasters/ajax-crawling/docs/html-snapshot). 我链接的页面是基于Java的,但是您当然可以在Python/Django中设置类似的内容。在</p>
<p>基本思想是在服务器上设置一个无头Javascript运行程序,当一个web爬虫程序访问您的站点时,您可以使用该JS运行程序生成如果在客户端正常运行的话,您的主干代码将生成的HTML。然后,它将该HTML发送回web爬虫程序,让您拥有一组客户端和服务器的代码。在</p>
<p>运行无头JS运行程序可能会有一些小的潜在问题(它们与web浏览器的内置JS不是100%相同),但当用于这种“HTML快照”方法时,它们不应该太相关。在</p>