擅长:python、mysql、java
<p>看看<a href="http://stormcrawler.net" rel="nofollow">StormCrawler</a>。实现您描述的内容应该非常简单,大多数组件都是用Java实现的。您可以增量生成url列表,并将其传递给MemorySpout,或者将它们放入一个文件中并使用FileSpout。它可以在apachestorm集群上以分布式模式运行,但是由于您只处理一个站点,所以可伸缩性并不是真正的问题,您可以在本地模式下运行它。在</p>
<p>另外,<a href="http://nutch.apache.org" rel="nofollow">Apache Nutch</a>也可以是一个选项,但您可能会发现StormCrawler使用起来更简单,也更易于定制。在</p>