使用python请求进行Web抓取

from bs4 import BeautifulSoup import requests url = "https://sparrow.eoffice.gov.in/IPRSTATUS/IPRFiledSearch" data = { 'assessmentYearId':'vH4pgBbZ8y8rhOFBoM0g7w', 'empName':'', 'allotmentYear':'', 'cadreId':'', 'iprReportType':'cqZvyXc--mpmnRNfPp2k7w', 'userType':'JgPOADxEXU1jGi53Xa2vGQ', '_csrf':'7819ec72-eedf-4290-ba70-6f2b14cc4b79' } headers = { 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Accept-Encoding':'gzip, deflate', 'Accept-Language':'en-US,en;q=0.8', 'Cache-Control':'max-age=0', 'Connection':'keep-alive', 'Content-Length':'184', 'Content-Type':'application/x-www-form-urlencoded', 'Upgrade-Insecure-Requests':'1', 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36' } response = requests.post(url,data=data,headers=headers)

2条回答

网友

1楼 · 编辑于 2024-10-02 16:26:41

问题在于我使用相同的csrf代码。每一个请求都需要改变。你知道吗

网友

2楼 · 编辑于 2024-10-02 16:26:41

我对这个网站不熟悉，但我强烈建议在尝试搜集内容之前先阅读他们的政策。你知道吗

在类似的情况下，当您无法通过简单的post获得预期的结果时，使用requests.Session通常会有所帮助。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章