使用硒+肉末

from selenium import webdriver from scrapy.loader import ItemLoader from scrapy import Request from scrapy.crawler import CrawlerProcess from properties import PropertiesItem import scrapy class BasicSpider(scrapy.Spider): name = "basic" allowed_domains = ["web"] # Start on a property page start_urls = ['http://www.iens.nl'] def __init__(self): chrome_path = '/Users/username/Documents/chromedriver' self.driver = webdriver.Chrome(chrome_path) def parse(self, response): self.driver.get(response.url) text_box = self.driver.find_element_by_xpath('//*[@id="searchText"]') submit_button = self.driver.find_element_by_xpath('//*[@id="button_search"]') text_box.send_keys("Amsterdam") submit_button.click() l = ItemLoader(item=PropertiesItem(), response=response) l.add_xpath('description', '//*[@id="results"]/ul/li[1]/div[2]/h3/a/') return l.load_item() process = CrawlerProcess() process.crawl(BasicSpider) process.start()

1条回答

网友

1楼 · 发布于 2024-06-28 20:21:00

您分配给您的response对象是scrapy响应，而不是Selenium的

我建议使用selenium返回的页面源创建一个新的Selector：

from scrapy import Selector
...

selenium_response_text = driver.page_source

new_selector = Selector(text=selenium_response_text)
l = ItemLoader(item=PropertiesItem(), selector=new_selector)
...

这样，add_xpath将从该响应结构中获取信息，而不是垃圾信息（实际上您并不需要这些信息）。在

相关问题更多 >

编程相关推荐

热门问题

热门文章