pythonscrapy并不是从一个web页面获取所有html元素

2条回答

网友

1楼 · 编辑于 2024-09-29 22:22:28

因为内容是由javascript生成的，所以有两个选择：使用类似selenium来模拟浏览器并解析html内容，或者如果可以的话，直接查询API。在

在这种情况下，这个简单的解决方案有效：

import requests
import json


URL = "http://www.wwe.com/api/superstars"

with requests.session() as s:
    s.headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:50.0) Gecko/20100101 Firefox/50.0'}
    resp = s.get(URL).json()
    for x in resp['talent'][:10]:
        print(x['name'])

输出（前10条记录）：

^{pr2}$

网友

2楼 · 编辑于 2024-09-29 22:22:28

听起来这个网站有动态内容，可能是用javascript和/或xhr调用加载的。看看splash这是一个javascript呈现引擎，它的行为很像幻影js。如果你知道如何使用docker，splash的设置非常简单。完成splash设置后，您必须使用scrapy-splash插件将其与scrapy集成。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

pythonscrapy并不是从一个web页面获取所有html元素

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >