如何在pythonscrapy中限制每个站点的关注页面数

class DownloadSpider(CrawlSpider): name = 'downloader' download_path = '/home/MyProjects/crawler' rules = (Rule(SgmlLinkExtractor(), callback='parse_item', follow=True),) def __init__(self, *args, **kwargs): super(DownloadSpider, self).__init__(*args, **kwargs) self.urls_file_path = [kwargs.get('urls_file')] data = open(self.urls_file_path[0], 'r').readlines() self.allowed_domains = [urlparse(i).hostname.strip() for i in data] self.start_urls = ['http://' + domain for domain in self.allowed_domains] def parse_start_url(self, response): return self.parse_item(response) def parse_item(self, response): self.fname = self.download_path + urlparse(response.url).hostname.strip() open(str(self.fname)+ '.txt', 'a').write(response.url) open(str(self.fname)+ '.txt', 'a').write('\n')

2条回答

网友
1楼 · 编辑于 2024-10-01 07:50:05

为此，您可以基于SgmlLinkExtractor创建自己的链接提取器类。应该是这样的：
from scrapy.selector import Selector from scrapy.utils.response import get_base_url from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor class LimitedLinkExtractor(SgmlLinkExtractor): def __init__(self, allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths=(), tags=('a', 'area'), attrs=('href'), canonicalize=True, unique=True, process_value=None, deny_extensions=None, max_pages=20): self.max_pages=max_pages SgmlLinkExtractor.__init__(self, allow=allow, deny=deny, allow_domains=allow_domains, deny_domains=deny_domains, restrict_xpaths=restrict_xpaths, tags=tags, attrs=attrs, canonicalize=canonicalize, unique=unique, process_value=process_value, deny_extensions=deny_extensions) def extract_links(self, response): base_url = None if self.restrict_xpaths: sel = Selector(response) base_url = get_base_url(response) body = u''.join(f for x in self.restrict_xpaths for f in sel.xpath(x).extract() ).encode(response.encoding, errors='xmlcharrefreplace') else: body = response.body links = self._extract_links(body, response.url, response.encoding, base_url) links = self._process_links(links) links = links[0:self.max_pages] return links
此子类的代码完全基于SgmlLinkExtractor类的代码。我刚刚添加了变量self.max_页到类构造函数和在提取链接方法末尾剪切链接列表的行。但你可以用更聪明的方式来删除这个列表。在

网友
2楼 · 编辑于 2024-10-01 07:50:05

我将生成每类变量，在parse_item中用stats = defaultdict(int)和递增self.stats[response.url]（或者在您的例子中可能是一个像(website, depth)的元组）初始化它。在
我就是这么想的-理论上应该行得通。如果你需要一个例子，请告诉我。在
仅供参考，您可以在urlparse.urlparse的帮助下提取基url并计算深度（请参见docs）。在

相关问题更多 >

编程相关推荐

热门问题

热门文章