如何根据网站分页器抓取和解析所有现有页面？

... <dd><span class="active">1</span></dd> <dd><a href="http://rabota.ua/jobsearch/vacancy_list?regionId=1&pg=2">2</a></dd> <dd><a href="http://rabota.ua/jobsearch/vacancy_list?regionId=1&pg=3">3</a></dd> <dd><a href="http://rabota.ua/jobsearch/vacancy_list?regionId=1&pg=4">4</a></dd> <dd><a href="http://rabota.ua/jobsearch/vacancy_list?regionId=1&pg=5">5</a></dd> <dd><a href="http://rabota.ua/jobsearch/vacancy_list?regionId=1&pg=6">6</a></dd> <dd style="position: absolute; right: 50px;"> <a id="centerZone_vacancyList_gridList_linkNext" href="http://rabota.ua/jobsearch/vacancy_list?regionId=1&pg=2">next »</a> ...

2条回答

网友

1楼 · 编辑于 2024-09-30 20:27:11

幸运的是我找到了解决方案。希望对其他人有帮助。。。在

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from scrapy.http.request import Request
from scrapy_sample.items import ScrapySampleItem

class ScrapyOrgSpider(BaseSpider):
    name = "scrapy"
    allowed_domains = ["scrapy.org"]
    start_urls = ["http://blog.scrapy.org/"]

    def parse(self, response):
        hxs = HtmlXPathSelector(response)

        next_page =
            hxs.select("//div[@class='pagination']/a[@class='next_page']/@href").extract()
        if not not next_page:
            yield Request(next_page[0], self.parse)

        posts = hxs.select("//div[@class='post']")
        items = []
        for post in posts:
            item = ScrapySampleItem()
            item["title"] = post.select("div[@class='bodytext']/h2/a/text()").extract()
            item["link"] = post.select("div[@class='bodytext']/h2/a/@href").extract()
            item["content"] = post.select("div[@class='bodytext']/p/text()").extract()
            items.append(item)
        for item in items:
            yield item

！！在

网友

2楼 · 编辑于 2024-09-30 20:27:11

他们有一个sitemap你可以使用，它可能更容易使用。在

您可以使用SitemapSpider。在

相关问题更多 >

编程相关推荐

热门问题

热门文章