有没有办法在我的网页抓取器抓取页面之前延迟它？

def clubList(url,yearCode): print(url + "/clubs" + yearCode) response = requests.get(url + "/clubs" + yearCode) time.sleep(10) content = response.content soup = BeautifulSoup(content, "html.parser") cluburl = [] clubs = [] ul = soup.find_all( "ul", attrs={ "class": "block-list-5 block-list-3-m block-list-1-s block-list-1-xs block-list-padding dataContainer" }, ) u = str(ul) soup2 = BeautifulSoup(u, "html.parser") for i, tags in enumerate(soup2.find_all("a")): cluburl.append(url + str(tags.get("href"))) for i in range(0, len(cluburl)): cluburl[i] = cluburl[i].replace("overview", "squad") return cluburl

1条回答

网友

1楼 · 发布于 2024-10-03 13:27:37

执行季节过滤器时，它使用以下API：

GET https://footballapi.pulselive.com/football/teams

它需要以下http头来返回数据：account: premierleague和origin: https://www.premierleague.com

以下示例使用API获取俱乐部列表，然后提取俱乐部id和俱乐部名称以生成俱乐部url：

import requests

season = 418

r = requests.get("https://footballapi.pulselive.com/football/teams", 
    params = {
        "pageSize": 100,
        "compSeasons": season,
        "compCodeForActivePlayer": "null",
        "comps": 1,
        "altIds": "true",
        "page": 0
    },
    headers = {
        "account": "premierleague",
        "origin": "https://www.premierleague.com"
    }
)

data = r.json()
print([
    f'https://www.premierleague.com/clubs/{int(t["club"]["id"])}/{t["club"]["name"].replace(" ","-")}/squad'
    for t in data["content"]
])

相关问题更多 >

编程相关推荐

热门问题

热门文章