此网站是否不适合使用beautifulsoup进行网页抓取？

from bs4 import BeautifulSoup as bs import requests as res #Load the webpage content r = res.get('https://danskespil.dk/oddset/sports/category/990/counter-strike-go/matches').text #Convert to a beautiful soup object soup = bs(r,'lxml') m1 = soup.find("div", attrs={"id": "wrapper"}).find("div", attrs={"class": "page-box"}).find("div", attrs={"class": "page-area"}).find("div", attrs={"id": "oddset-nashville"}).find("div", attrs={"class": "sgd-wrapper"}) m2 = soup.find("div", attrs={"class": "sgd-wrapper"})

m1 = soup.find("div", attrs={"id": "wrapper"}).find("div", attrs={"class": "page-box"}).find("div", attrs={"class": "page-area"}).find("div", attrs={"id": "oddset-nashville"}) m2 = soup.find("div", attrs={"id": "oddset-nashville"})

1条回答

网友

1楼 · 发布于 2024-09-29 17:23:18

问题出在r = res.get('https://danskespil.dk/oddset/sports/category/990/counter-strike-go/matches').text 的那一行

Python请求库只是将您的HTTP/HTTPS请求发送到服务器并获取原始html，它不能帮助您加载更多的资源，如图片和脚本，这意味着某些元素是在javascript脚本中操作的（例如，创建元素、设置类名并插入DOM树）：

另一个示例是，如果通过请求GETmain.html，它不会加载main.js，并且divt1的类不会设置为sgd-wrapper

# main.html
<html>
   <body>
      <div id="t1"></div>
      <script src="main.js"></script>
   </body>
</html>

# in main.js
document.querySelector('#t1').classList.add('sgd-wrapper');

您需要做的是使用headless Chrome（比如google-chorme headless启动Chrome）并使用chromeapi钩住页面加载事件，然后转储整个内容

相关问题更多 >

编程相关推荐

热门问题

热门文章