Python3.6只返回第一页的废弃问题

data={ '__EVENTTARGET':"ctl08$ctl00$BottomPager$Page2", '__EVENTARGUMENT':"", '__VIEWSTATE':VIEWSTATE, '__EVENTVALIDATION':EVENTVALIDATION, 'ctl04$phrase':"", 'ctl04$directoryList':"/museums/|/museums/search/"

import requests import json from bs4 import BeautifulSoup import urllib url="http://www.museumsusa.org/museums/?k=1271393%2cAlpha%3aA%3bDirectoryID%3a200454"; headers={ "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_4) AppleWebKit/537.36 (KHTML, like Gecko) " "Chrome/60.0.3112.101 Safari/537.36", "Content-Type":"application/x-www-form-urlencoded"} session = requests.Session() session.headers.update(headers) r=session.get(url) soup=BeautifulSoup(r.content) #?k=1271393%2cAlpha%3aA%3bDirectoryID%3a200454 VIEWSTATE=soup.find(id="__VIEWSTATE")['value'] #VIEWSTATEGENERATOR=soup.find(id="__VIEWSTATEGENERATOR")['value'] EVENTVALIDATION=soup.find(id="__EVENTVALIDATION")['value'] data_in={ '__EVENTTARGET':"ctl08$ctl00$BottomPager$Page2", '__EVENTARGUMENT':"", '__VIEWSTATE':VIEWSTATE, '__EVENTVALIDATION':EVENTVALIDATION, 'ctl04$phrase':"", 'ctl04$directoryList':"/museums/|/museums/search/" #"k":"1271393,Alpha:A;DirectoryID:200454" } r2 = session.post(url, data=json.dumps(data_in)) print (r2)

1条回答

网友

1楼 · 发布于 2024-09-23 06:32:42

如果将data_in['__EVENTTARGET']的值更改为"ctl08$ctl00$BottomPager$Next"，则可以转到下一页。然后使用for循环获得特定的页数，例如10页

url = "http://www.museumsusa.org/museums/?k=1271393%2cAlpha%3aA%3bDirectoryID%3a200454"
headers={
    "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_4) AppleWebKit/537.36 (KHTML, like Gecko)"
}
session = requests.Session()
session.headers.update(headers)
r=session.get(url)
pages = 10

for _ in range(pages):
    soup=BeautifulSoup(r.content, 'html.parser')
    VIEWSTATE=soup.find(id="__VIEWSTATE")['value']
    EVENTVALIDATION=soup.find(id="__EVENTVALIDATION")['value']
    data_in={
        '__EVENTTARGET':'ctl08$ctl00$BottomPager$Next',
        '__EVENTARGUMENT':"",
        '__VIEWSTATE':VIEWSTATE,
        '__EVENTVALIDATION':EVENTVALIDATION,
        'ctl04$phrase':"",
        'ctl04$directoryList':"/museums/|/museums/search/"
    }
    r = session.post(url, data=data_in)

相关问题更多 >

编程相关推荐

热门问题

热门文章