Scrapy:无法从带有FormReques的页面获取隐藏数据

import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from TopAchat.items import TopachatItem class TopAchatSpider(CrawlSpider): name = "TopAchat1" start_urls = ["https://www.topachat.com/pages/marque.php"] rules = ( Rule(LinkExtractor(restrict_xpaths=('//*[@id="content"]/section/ul[@class="listProduct"]//a'))), Rule(LinkExtractor(restrict_xpaths=("//li[@class='link-visible']//a","//li[@class='display: list-item']//a")),callback='parse_item'), ) def parse_item(self, response): item = TopachatItem() item["brandname"] = response.xpath("//div[@class='small']/div/text()").extract_first()[4:].split(" ")[0] item["href"] = response.request.url item["name"] = response.xpath("//div[@class='libelle']/h1/text()").extract_first() item["specs"] = response.xpath("//strong[@class='big short-descr']/text()").extract_first() item["product_type"] = response.xpath("//nav[@class='meta small']//p//b/text()").extract_first() return item,scrapy.FormRequest.from_response( response, clickdata = {'href' :"#"})

1条回答

网友

1楼 · 发布于 2024-06-02 19:59:46

他们有以下HTML源代码：

                <li class='link-visible'>                                   <a href='/pages/detail2_cat_est_ordinateurs_puis_rubrique_est_wh_tabmul_puis_ref_est_in10092521.html'>
                                apple ipad mini 4 7.9'' retina 128 go wi-fi gris sideral (2015)                                     &nbsp;<strong>(MK9N2NF/A</strong>)                                  </a>
                        </li>
                    <li class='link-visible'>                                   <a href='/pages/detail2_cat_est_ordinateurs_puis_rubrique_est_wh_tabmul_puis_ref_est_in10103554.html'>
                                Apple iPad 32 Go Wi-Fi Or (2017)                                        &nbsp;<strong>(MPGT2NF/A</strong>)                                  </a>
                        </li>
                    <li>                                    <a href='/pages/detail2_cat_est_ordinateurs_puis_rubrique_est_wh_tabmul_puis_ref_est_in10103538.html'>
                                apple ipad 32 go wi-fi gris sideral (2017)                                      &nbsp;<strong>(MP2F2NF/A</strong>)                                  </a>
                        </li>
                    <li>                                    <a href='/pages/detail2_cat_est_ordinateurs_puis_rubrique_est_wh_tabmul_puis_ref_est_in10103545.html'>
                                Apple iPad 32 Go Wi-Fi Silver (2017)                                        &nbsp;<strong>(MP2G2NF/A</strong>)                                  </a>
                        </li>

如您所见，它是//li[@class="link-visible"]/a（您有这个）和//li/a（您需要添加这个来捕获“加载更多结果”）

相关问题更多 >

编程相关推荐

热门问题

热门文章