如何从弹出窗口中刮取文本？[Python和Scrapy]

import scrapy from FirstScrape.items import FirstscrapeItem class FirstSpider(scrapy.Spider): name = "spiderman" start_urls = [ "https://www.eaab.org.za/agent_agency_search?type=Agents&search_agent=+&submit_agent_search=GO" ] def parse(self, response): item = FirstscrapeItem() item['name'] = response.xpath("//tr[@class='even']/td[1]/text()").get() item['status'] = response.xpath("//tr[@class='even']/td[2]/text()").get() #first refers to firstname in the popup window item['first'] = response.xpath("//div[@class='result-list default']/tbody/tr[2]/td[2]/text()").get() return item

2条回答

网友

1楼 · 编辑于 2024-09-30 12:17:48

在Full Detail中，您有href属性，需要获取此url并发出请求。也许它能帮助你：

import scrapy
from scrapy.crawler import CrawlerProcess

class FirstSpider(scrapy.Spider):
    name = "spiderman"
    start_urls = [
        
        "https://www.eaab.org.za/agent_agency_search?type=Agents&search_agent=+&submit_agent_search=GO"
        
        ]
    
    def parse(self, response):
                
        all_urls = [i.attrib["href"] for i in response.css(".agent-detail")]
        for url in all_urls:
            yield scrapy.Request(url=f"https://www.eaab.org.za{url}", callback=self.parse_data)
        
    def parse_data(self, response):
        print(response.css("td::text").extract())
        print("                 -")

网友

2楼 · 编辑于 2024-09-30 12:17:48

这是您需要从起始页提取的URL：

<a href="/listing_detail.php?agents_id=169039" class="agent-detail">Full Detail</a>

要获取弹出窗口的内容，请将此提取的URL作为另一个请求打开

相关问题更多 >

编程相关推荐

热门问题

热门文章