为什么我的formdata在我用scrapy发布时解码错误？

def start_requests(self): posturl = 'http://www.istic.ac.cn/suoguan/essearch.ashx' url = 'http://www.istic.ac.cn/suoguan/QiKan_ShouYe.htm?lan=en&journalId=IELEP0229&yp=2018' journalId = re.search(r'journalId=(.*?)&', url).group(1) yearNum = re.search(r'&yp=(\d+)', url).group(1) postdata = { "indexname" : "xw_qk", "search" : "{0}/F(F_ReqNum)*{1}/F(F_YEAR)".format(journalId, yearNum), "page" : "0", "pagenum" : "20", "sort" : "", "type" : "content", } print journalId, yearNum print postdata self.logger.info('Visit_headpage........................') yield FormRequest(posturl, formdata = postdata, callback = self.parse_item)

2条回答

网友

1楼 · 编辑于 2024-09-30 20:34:03

我建议使用Request(method='POST')而不是{}，因为我在使用这个函数时遇到了很多麻烦。在

并尝试像这样将参数直接附加到posturl中

yield Request(url= posturl + "?search="+"{0}/F(F_ReqNum)*{1}/F(F_YEAR)".format(journalId, yearNum, method='POST')

并连接其他参数

网友

2楼 · 编辑于 2024-09-30 20:34:03

他们发送的是相同的东西（scrapy的FormRequest只是url编码的），但我认为它发生的是，当你第一次登陆http://www.istic.ac.cn/suoguan/QiKan_ShouYe.htm?lan=en&journalId=IELEP0229&yp=2018时，它需要接收一个cookie，请尝试以下操作：

    # -*- coding: utf-8 -*-
import json
import re
import scrapy
from scrapy import FormRequest


class IsticSpider(scrapy.Spider):
    name = "istic"
    allowed_domains = ["istic.ac.cn"]
    start_urls = ['http://www.istic.ac.cn/suoguan/QiKan_ShouYe.htm?lan=en&journalId=IELEP0229&yp=2018']

    def parse(self, response):
        posturl = 'http://www.istic.ac.cn/suoguan/essearch.ashx'
        journalId = re.search(r'journalId=(.*?)&', response.url).group(1)
        yearNum = re.search(r'&yp=(\d+)', response.url).group(1)
        postdata = {
            "indexname" : "xw_qk",
            "search" : "{0}/F(F_ReqNum)*{1}/F(F_YEAR)".format(journalId, yearNum),
            "page" : "0",
            "pagenum" : "20",
            "sort" : "",
            "type" : "content",
        }
        yield FormRequest(posturl,  formdata = postdata, callback = self.parse_item)

    def parse_item(self, response):
        data = json.loads(response.body_as_unicode())
        self.logger.debug('%s', data.keys())

它应该输出[u'facets', u'hits', u'took']

相关问题更多 >

编程相关推荐

热门问题

热门文章