我无法在属于滑块/旋转木马的网站上刮取数据。当我运行脚本时,它只从滑块/旋转木马中刮取第一个项目。它不会遍历旋转木马中的所有页面。你知道吗
我要搜索的网站是:
我的Python脚本:
soup = BeautifulSoup(response, 'html.parser')
divTag = soup.find_all("a", class_=['sc-VigVT', 'eJWBx'])
for tag in divTag:
tdTags = tag.find_all("h3", class_=['sc-jAaTju', 'iNsSAY'])
for tag in tdTags:
print(tag.text)
输出:
Kunal Bahl and Rohit Bansal reveal the inside story of the Snapdeal turnaround
有7个旋转木马项目,但我只能得到第一个。我无法从carousel/slider的第2-7页获取数据。你知道吗
请检查下面的图片,我指的是什么(红圈):
carousel是使用JS中硬编码的JSON数据从Javascript生成的。确切地说,这个JSON是通过以下方式引入的:
因此,据推测,这个站点使用redux来管理应用程序的状态
我们可以用以下脚本提取这个JSON:
JSON在
home
字段中有一个sections
数组。此节对象包括一些具有值为CarouselCard
的cardType
对象,其中包含您要查找的数据另外,从JSON开始,Carousel部分如下所示:
所以我想你也可以使用API来获取卡片:https://yourstory.com/api/v2/featured_stories?brand=yourstory&key=CURATED_SET
哪个更直接
相关问题 更多 >
编程相关推荐