如何在scrapy中获取原始的开始url（重定向前） - 问答 - Python中文网

如何在scrapy中获取原始的开始url（重定向前）

2024-09-28 16:20:28 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我在用纸屑爬一些书页。我从excel工作表中获取起始url，并需要将该url保存在项目中。

class abc_Spider(BaseSpider):
   name = 'abc'
   allowed_domains = ['abc.com']         
   wb = xlrd.open_workbook(path + '/somefile.xlsx')
   wb.sheet_names()
   sh = wb.sheet_by_name(u'Sheet1')
   first_column = sh.col_values(15)
   start_urls = first_column
   handle_httpstatus_list = [404]

   def parse(self, response):
      item = abcspiderItem()
      item['url'] = response.url

问题是url被重定向到其他url（从而在响应url中给出其他内容）。如何获取从excel获得的原始url？

Tags：项目 name url response sh column item excel

0条回答

目前没有回答

相关问题更多 >

编程相关推荐

热门问题

热门文章