当我使用Beautifulsoup和requests模块刮取img
的src
时,所有img
ssrc
是空的,因此我假设src
值是由JavaScript生成的。因此,我尝试使用requests_html模块。然而,当我试图在呈现响应后刮取相同的信息时,只有两个img
的src
有值,其余的是空的,但问题是,当我在网站上使用开发人员工具检查它时,另一个img
的src似乎应该有值。我可以知道这里有什么问题吗
from bs4 import BeautifulSoup
import requests
biliweb = requests.get('https://www.bilibili.com/ranking/bangumi/13/0/3').text
bilisoup = BeautifulSoup(biliweb,'lxml')
for item in bilisoup.find_all('div',class_='lazy-img'):
image_html = item.find('img')
print(image_html)
from requests_html import HTML, HTMLSession
session = HTMLSession()
biliweb = session.get('https://www.bilibili.com/ranking/bangumi/13/0/3')
biliweb.html.render()
for item in biliweb.html.find('.lazy-img.cover > img'):
print(item.html)
With Beautifulsoup and requests
<;img alt=“Re:从零开始的异世界生活 第二季" src=“”/>;
<;img alt=”刀剑神域 爱丽丝篇 异界战争 -终章-“src=”“/>
<;img alt=”没落要塞 / 颓废“src=”“/>
<;img alt=”某科学的超电磁炮T“src=”“/>;
<;img alt=”宇崎学妹想要玩!“src=”“/>
With requests_html
<;img alt=“Re:从零开始的异世界生活 第二季“src=”https://i0.hdslb.com/bfs/bangumi/image/f2425cbdb07cc93bd0d3ba1c0099bfe78f5dc58a.png@90w_120h.webp”/>;
<;img alt=”刀剑神域 爱丽丝篇 异界战争 -终章-“src=”https://i0.hdslb.com/bfs/bangumi/image/54d9ca94ca84225934e0108417c2a1cc16be38fb.png@90w_120h.webp”/>;
<;img alt=”没落要塞 / 颓废“src=”“/>
<;img alt=”某科学的超电磁炮T“src=”“/>;
<;img alt=”宇崎学妹想要玩!“src=”“/>
所有数据都存储在名为
__INITIAL_STATE__
的javascript变量中以下脚本将数据保存在json文件中。一旦你有了这个,你可以很容易地下载图像
输出:
相关问题 更多 >
编程相关推荐