使用请求时无法模拟FormRequest.from\u响应

import requests from bs4 import BeautifulSoup link = 'https://cityservices.baltimorecity.gov/realproperty/default.aspx' search_address = '2220 CLOVE TERR' with requests.Session() as s: s.headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36' key = 'ctl00$ctl00$rootMasterContent$LocalContentPlaceHolder${}' payload = {} r = s.get(link) soup = BeautifulSoup(r.text,"lxml") payload['__VIEWSTATE'] = soup.select_one("input[id='__VIEWSTATE']")['value'] payload[key.format('txtAddress')] = search_address payload[key.format('btnSearch')] = 'Search' res = s.post(link,data=payload) soup = BeautifulSoup(res.text,"lxml") block = soup.select_one("[id$='_DataGrid1'] > tr:not(th) > td").get_text(strip=True) print(block)

class RealpropertySpider(Spider): name = 'companies' start_url = 'https://cityservices.baltimorecity.gov/realproperty/default.aspx' search_address = '2220 CLOVE TERR' def start_requests(self): yield Request(self.start_url) def parse(self, response): key = 'ctl00$ctl00$rootMasterContent$LocalContentPlaceHolder${}' formdata = { key.format('txtAddress'): self.search_address, key.format('btnSearch'): 'Search' } yield FormRequest.from_response( response, formdata=formdata, callback=self.parse_content ) def parse_content(self, response): block = response.xpath("//*[contains(@id,'_DataGrid1')]/tr[not(th)]/td/text()").get() yield {"Block":block}

1条回答

网友
1楼 · 发布于 2024-09-21 03:21:39

因为FormRequest.from_response()已经加载了包含viewstate的表单字段，所以您的scrapy解决方案可以工作
FromRequest.from_response( response, formdata=formdata, callback=self.parse_content )
是否有以下情况：
获取第一个（默认情况下）form标记。（_get_form）
在找到的表单中-获取所有相关表单字段的有效负载数据（一个周期内的输入标签等）（_get_inputs）
关于您的案例__VIEWSTATE此步骤的结果包括的数据
将formdata参数中的字段应用于新的有效负载
获取表单url_get_form_url
使用前面步骤的结果创建请求对象
据我所知requests库没有任何类似的实现
如果由于某种原因您不能使用scrapy，并且您需要此功能，那么您可能需要自己复制所有提到的步骤（提供指向scrapy代码相关部分的链接）

相关问题更多 >

编程相关推荐

热门问题

热门文章