我在用纸屑爬一些书页。我从excel工作表中获取起始url,并需要将该url保存在项目中。
class abc_Spider(BaseSpider):
name = 'abc'
allowed_domains = ['abc.com']
wb = xlrd.open_workbook(path + '/somefile.xlsx')
wb.sheet_names()
sh = wb.sheet_by_name(u'Sheet1')
first_column = sh.col_values(15)
start_urls = first_column
handle_httpstatus_list = [404]
def parse(self, response):
item = abcspiderItem()
item['url'] = response.url
问题是url被重定向到其他url(从而在响应url中给出其他内容)。如何获取从excel获得的原始url?
目前没有回答
相关问题 更多 >
编程相关推荐