Scrapy&Selenium:如何在循环中调用方法

2024-10-01 17:35:28 发布

您现在位置:Python中文网/ 问答频道 /正文

我已经在这里发现了类似的问题,但我的爬虫程序仍然没有运行。你知道吗

我试图爬网几个网址,我从一个txt文件. 这工作正常。但是,scrapy/selenium会为每个URL逐个打开浏览器,但不会运行“crawltips”功能。仅适用于我的txt文件执行defcrawltips(self, response):中的代码。你知道吗

我如何调用“crawltips”-函数为我的网页中的每个网址txt文件?你知道吗

class AlltipsSpider(Spider):
    name = 'allclasses'
    allowed_domains = ['dummy.com']



    def start_requests(self):

        self.driver = webdriver.Chrome('C:\webdrivers\chromedriver.exe')
        with open("urls.txt", "rt") as f:
            start_urls = [l.strip() for l in f.readlines()]

        for url in start_urls:
            self.driver.get(url)
            self.driver.find_element_by_id('currentTab').click()
            self.driver.find_element_by_xpath('//*[@id="_blog-menu"]/div[2]/div/div[2]/a[3]').click()
            yield Request(self.driver.current_url, callback=self.crawltips)


    def crawltips(self, response):


        sel = Selector(text=self.driver.page_source)
        allposts = sel.xpath('//*[@class="block media _feedPick feed-pick"]')
        for post in allposts:
            username = post.xpath('.//div[@class="col-sm-7 col-lg-6 no-padding"]/a/@title').extract()
            publish_date = post.xpath('.//*[@class="bet-age text-muted"]/text()').extract()


            yield{'Username': username,
                'Publish date': publish_date                
                }

Tags: 文件textinselfdivtxturlfor
1条回答
网友
1楼 · 发布于 2024-10-01 17:35:28

据我所知,WebDriver一次只能关注一个选项卡(窗口)。在运行循环时,最后一个URL被选中并在那里执行函数。你知道吗

对于解决方案,您必须根据URL计数找到选项卡的数量,并在完成下一个URL后切换回每个URL。你知道吗

例如:

  • browser.find_element_by_tag_name('body').send_keys(Keys.CONTROL + Keys.TAB)-移动到新选项卡并积极地处理它。(使用Keys.SHIFT作为backword选项卡)
  • driver.switch_to.window(driver.window_handles[i])-使用制表符计数(i)。你知道吗

相关问题 更多 >

    热门问题