<p>最近,我被分配到我的大学,一个新闻聚合项目。我发现Flipboard是一个非常有趣和病毒式的新闻聚合应用程序。为了实现这一点,我正在构建一个网络爬虫,它将抓取网站,获取最近的新闻和帖子。我正在看一篇关于<a href="http://www.gizmod.com" rel="nofollow">Gizmod</a>的帖子</p>
<blockquote>
<p>Is the scraper universal/generic, or are there customer scrapers for
certain sites? </p>
<p><strong>Doll</strong>: It is mostly universal/generic. However, we can
limit the amount of content displayed on a site-specific basis. We
already try to do this with some sites that publish extremely
abbreviated RSS feeds- even though we aren't using RSS directly, we
attempt to achieve display parity with their feed.</p>
</blockquote>
<p>我非常熟悉从单个网站获取数据的过程。但我不确定如何从多个网站和博客获取数据,这些网站和博客的结构完全不同。在</p>
<p>我目前正在使用python2.7、urllib2和beauthoulsoup对单个网站进行爬网。在</p>
<p><strong>问题:</strong></p>
<p>我想知道,我怎样才能实现仅仅通过一个通用爬虫从成千上万个网站获取数据的目标?在</p>