我试图从Transfermarkt上的500张个人资料图片中获取“src”,即每个玩家个人资料上的图片,而不是列表中的小图片。我已经设法将每个玩家的URL存储到一个列表中。现在,当我尝试遍历它时,代码只是不断地运行,然后在20分钟后停止,没有任何错误或print命令的输出。正如我所说的,我希望每个玩家的图片来源(src)在他们各自的个人资料上
我不确定代码到底出了什么问题,因为我没有收到任何错误消息。我在stackoverflow上的不同帖子的帮助下构建了它
from bs4 import BeautifulSoup
import requests
import pandas as pd
playerID = []
playerImgSrc = []
result = []
for page in range(1, 21):
r = requests.get("https://www.transfermarkt.com/spieler-statistik/wertvollstespieler/marktwertetop?land_id=0&ausrichtung=alle&spielerposition_id=alle&altersklasse=alle&jahrgang=0&kontinent_id=0&plus=1",
params= {"page": page},
headers= {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0"}
)
soup = BeautifulSoup(r.content, "html.parser")
links = soup.select('a.spielprofil_tooltip')
for i in range(len(links)):
playerID.append(links[i].get('id'))
playerProfile = ["https://www.transfermarkt.com/josh-maja/profil/spieler/" + x for x in playerID]
for p in playerProfile:
html = requests.get(p).text
soup = BeautifulSoup(html, "html.parser")
link = soup.select('div.dataBild')
for i in range(len(link)):
playerImgSrc.append(link[i].get('src'))
print(playerImgSrc)
基本上,网站
navigation
正在使用AJAX技术,这非常快,就像您在本地机器上浏览文件夹一样因此,在
UI
(用户界面)中显示的data
实际上来自主机内的XHR请求的背景,该主机在marktwertetop
中使用AJAX
我已经能够找到对它发出的
XHR
请求,然后在pages
上循环时,直接用所需的parameters
调用它我发现{}和{}照片之间的区别实际上是{}的一个不同的{},即{}和{},所以我在{}本身中替换了它
我还认为我受到了}下意味着在{}和{}期间维护{}和{},这意味着在{}期间防止{}层安全性
antibiotic
的保护(😋) 在{想象一下,您已经打开了一个}创建的
browser
,在同一个website
页面之间导航,有一个cookies
{established
,只要您连接到site
,如果idle
,它就会刷新自己但是你做这件事的方式,只是你打开一个浏览器,然后关闭它,然后再打开它,然后关闭它,等等。{}方将其视为{}攻击?!或洪水行为。这是{}操作的一个非常基本的部分
按用户评论更新:
输出:view online
相关问题 更多 >
编程相关推荐