使用Python Scrapy遍历站点

from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import HtmlXPathSelector from syllabi.items import SyllabiItem class SyllabiSpider(CrawlSpider): name = 'saylor' allowed_domains = ['saylor.org'] start_urls = ['http://www.saylor.org/site/syllabus.php?cid='] rules = [Rule(SgmlLinkExtractor(allow=['\d+']), 'parse_syllabi')] def parse_syllabi(self, response): x = HtmlXPathSelector(response) syllabi = SyllabiItem() syllabi['url'] = response.url syllabi['body'] = x.select("/html/body/text()").extract() return syllabi

1条回答

网友

1楼 · 发布于 2024-09-30 22:16:48

试试这个：

from scrapy.spider import BaseSpider
from scrapy.http import Request
from syllabi.items import SyllabiItem

class SyllabiSpider(BaseSpider):
    name = 'saylor'
    allowed_domains = ['saylor.org']
    max_cid = 400

    def start_requests(self):
        for i in range(self.max_cid):
            yield Request('http://www.saylor.org/site/syllabus.php?cid=%d' % i,
                    callback=self.parse_syllabi)

    def parse_syllabi(self, response):
        syllabi = SyllabiItem()
        syllabi['url'] = response.url
        syllabi['body'] = response.body

        return syllabi

相关问题更多 >

编程相关推荐

热门问题

热门文章