网站是thingiverse这样的产品网站

from bs4 import BeautifulSoup page = urlopen("https://www.thingiverse.com/search?q=vader&type=things&sort=relevant") soup = BeautifulSoup(page, "lxml") product_list = soup.find_all({ 'class' :'SearchResult__searchResultItem--c4VZk'})

1条回答

网友

1楼 · 发布于 2024-09-30 02:20:15

对于原始问题：

Class作为字典项传递。因此，将代码更改为soup.find_all('div', { 'class' :'SearchResult__searchResultItem c4VZk'})

此演示美化了抓取html的过程：

from bs4 import BeautifulSoup

html = '''<div class="SearchResult__searchResultItem c4VZk">Test</div>'''
soup=BeautifulSoup(html,'html.parser')
Result_list = soup.find_all('div', { 'class' :'SearchResult__searchResultItem c4VZk'})
print(Result_list)

输出：

[<div class="SearchResult__searchResultItem c4VZk">Test</div>]

对于您编辑的问题：

BeautifulSoup(page, "lxml")这将传入响应对象，而不是HTML。响应对象将包含HTTP状态、头和各种信息。要获取HTML，请尝试html = page.read()

该网站正在通过JavaScript加载html标记。因此urllib.request/BeautifulSoup将无法提取数据。您可以通过使用print(soup.prettify())打印html来测试这一点。要解决这个问题，您可以使用某种web自动化工具，如selenium

网站按预期返回了HTML。刮码看起来像：

from urllib.request import urlopen
from bs4 import BeautifulSoup

with urlopen("https://www.thingiverse.com/search?q=vader&type=things&sort=relevant") as response:
      html = page.read()
      soup = BeautifulSoup(html, "lxml")
      print(soup.prettify()) # The HTML tag does not appear as it's generate by JavaScript.
      product_list = soup.find_all({ 'class' :'SearchResult__searchResultItem c4VZk'})
      print(product_list)

相关问题更多 >

编程相关推荐

热门问题

热门文章