如何在scrapy中覆盖/使用cookies问题的回答

如何在scrapy中覆盖/使用cookies

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我想废弃<a href="http://www.3andena.com/" rel="noreferrer">http://www.3andena.com/</a>，这个网站首先以阿拉伯语开始，它将语言设置存储在cookies中。如果试图通过URL（<a href="http://www.3andena.com/home.php?sl=en" rel="noreferrer">http://www.3andena.com/home.php?sl=en</a>）直接访问语言版本，则会产生问题并返回服务器错误。 所以，我想将cookie值“store_language”设置为“en”，然后开始废弃使用此cookie值的网站。 我使用爬行蜘蛛有一些规则。 这是密码 <pre><code>from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy import log from bkam.items import Product from scrapy.http import Request import re class AndenaSpider(CrawlSpider): name = "andena" domain_name = "3andena.com" start_urls = ["http://www.3andena.com/Kettles/?objects_per_page=10"] product_urls = [] rules = ( # The following rule is for pagination Rule(SgmlLinkExtractor(allow=(r'\?page=\d+$'),), follow=True), # The following rule is for produt details Rule(SgmlLinkExtractor(restrict_xpaths=('//div[contains(@class, "products-dialog")]//table//tr[contains(@class, "product-name-row")]/td'), unique=True), callback='parse_product', follow=True), ) def start_requests(self): yield Request('http://3andena.com/home.php?sl=en', cookies={'store_language':'en'}) for url in self.start_urls: yield Request(url, callback=self.parse_category) def parse_category(self, response): hxs = HtmlXPathSelector(response) self.product_urls.extend(hxs.select('//td[contains(@class, "product-cell")]/a/@href').extract()) for product in self.product_urls: yield Request(product, callback=self.parse_product) def parse_product(self, response): hxs = HtmlXPathSelector(response) items = [] item = Product() ''' some parsing ''' items.<a href="https://www.cnpython.com/list/append" class="inner-link">append</a>(item) return items SPIDER = AndenaSpider() </code></pre> 这是日志： <pre><code>2012-05-30 19:27:13+0000 [andena] DEBUG: Redirecting (301) to <GET http://www.3andena.com/home.php?sl=en&xid_479d9=97656c0c5837f87b8c479be7c6621098> from <GET http://3andena.com/home.php?sl=en> 2012-05-30 19:27:14+0000 [andena] DEBUG: Redirecting (302) to <GET http://www.3andena.com/home.php?sl=en&xid_479d9=97656c0c5837f87b8c479be7c6621098> from <GET http://www.3andena.com/home.php?sl=en&xid_479d9=97656c0c5837f87b8c479be7c6621098> 2012-05-30 19:27:14+0000 [andena] DEBUG: Crawled (200) <GET http://www.3andena.com/Kettles/?objects_per_page=10> (referer: None) 2012-05-30 19:27:15+0000 [andena] DEBUG: Crawled (200) <GET http://www.3andena.com/B-and-D-Concealed-coil-pan-kettle-JC-62.html> (referer: http://www.3andena.com/Kettles/?objects_per_page=10) </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

如何在scrapy中覆盖/使用cookies

1 个回答

相关Python问题