在抓取第一页之前，如何在不知道曲奇是什么的情况下传递饼干？问题的回答

在抓取第一页之前，如何在不知道曲奇是什么的情况下传递饼干？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我想从多个页面获取数据。如果我想从第二页获取数据，我应该使用cookies传递搜索项（因为搜索项不会出现在url中） 第一页的url是： <blockquote> <a href="http://epgd.biosino.org/EPGD/search/textsearch.jsp?textquery=man&submit=Feeling+Lucky" rel="nofollow">http://epgd.biosino.org/EPGD/search/textsearch.jsp?textquery=man&submit=Feeling+Lucky</a> </blockquote> 第二页的url是： <blockquote> <a href="http://epgd.biosino.org/EPGD/search/textsearch.jsp?currentIndex=10" rel="nofollow">http://epgd.biosino.org/EPGD/search/textsearch.jsp?currentIndex=10</a> </blockquote> 我在堆栈溢出中看到了很多问题，他们在爬网之前都知道cookies是什么数据。但是只有当我完成第一页的爬行后，我才能得到饼干。所以我想知道怎么处理这个？这是我的代码： <pre><code>__author__ = 'Rabbit' from scrapy.spiders import Spider from scrapy.selector import Selector from scrapy_Data.items import EPGD class EPGD_spider(Spider): name = "EPGD" allowed_domains = ["epgd.biosino.org"] stmp = [] term = "man" url_base = "http://epgd.biosino.org/EPGD/search/textsearch.jsp?textquery=man&submit=Feeling+Lucky" start_urls = stmp def parse(self, response): sel = Selector(response) sites = sel.xpath('//tr[@class="odd"]|//tr[@class="even"]') for site in sites: item = EPGD() item['genID'] = map(unicode.strip, site.xpath('td[1]/a/text()').extract()) item['taxID'] = map(unicode.strip, site.xpath('td[2]/a/text()').extract()) item['familyID'] = map(unicode.strip, site.xpath('td[3]/a/text()').extract()) item['chromosome'] = map(unicode.strip, site.xpath('td[4]/text()').extract()) item['symbol'] = map(unicode.strip, site.xpath('td[5]/text()').extract()) item['description'] = map(unicode.strip, site.xpath('td[6]/text()').extract()) yield item </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

我刚刚看到你在这里发布了与你之前在<a href="https://stackoverflow.com/questions/36083221/how-to-use-scrapy-to-crawl-data-from-multipages-which-are-implemented-by-javascr/36110175#36110175">this post</a>中已经发布的相同的问题，我昨天已经回答了这个问题。所以我再次把我的答案贴在这里，让主持人来决定。。。在 当将链接解析和请求生成添加到parse（）函数中时，您的示例正好适用于我。也许这个页面会生成一些服务器端cookies。但是使用像<a href="http://crawlera.com/" rel="nofollow">Scrapy's Crawlera</a>（从多个IP下载）这样的代理服务会失败。在 解决方案是将“textquery”参数手动输入到请求url中： <pre><code>import urlparse from urllib import urlencode from scrapy import Request from scrapy.spiders import Spider from scrapy.selector import Selector class EPGD_spider(Spider): name = "EPGD" allowed_domains = ["epgd.biosino.org"] term = 'calb' base_url = "http://epgd.biosino.org/EPGD/search/textsearch.jsp?currentIndex=0&textquery=%s" start_urls = [base_url % term] def update_url(self, url, params): url_parts = list(urlparse.urlparse(url)) query = dict(urlparse.parse_qsl(url_parts[4])) query.update(params) url_parts[4] = urlencode(query) url = urlparse.urlunparse(url_parts) return url def parse(self, response): sel = Selector(response) genes = sel.xpath('//tr[@class="odd"]|//tr[@class="even"]') for gene in genes: item = {} item['genID'] = map(unicode.strip, gene.xpath('td[1]/a/text()').extract()) # ... yield item urls = sel.xpath('//div[@id="nviRecords"]/span[@id="quickPage"]/a/@href').extract() for url in urls: url = response.urljoin(url) url = self.update_url(url, params={'textquery': self.term}) yield Request(url) </code></pre> 从Lukasz的解决方案更新\u url（）函数详细信息： <a href="https://stackoverflow.com/questions/2506379/add-params-to-given-url-in-python">Add params to given URL in Python</a>

在抓取第一页之前，如何在不知道曲奇是什么的情况下传递饼干？

1 个回答

相关Python问题