如何构建一个基于Scrapy的网络爬虫来永远运行?

2024-05-13 21:18:56 发布

您现在位置:Python中文网/ 问答频道 /正文

我想建立一个基于Scrapy的网络爬虫,从几个新闻门户网站抓取新闻图片。我希望这个爬虫:

  1. 永远奔跑

    意味着它将定期重新访问一些门户页面以获取更新。

  2. 安排优先级。

    给不同类型的url赋予不同的优先级。

  3. 多线程获取

我读过那份残缺的文件,但没有找到与我所列出的有关的东西(也许我不够小心)。这里有人知道怎么做吗?或者只是给出一些想法/例子。谢谢!


Tags: 文件网络url类型门户图片页面新闻