我正在尝试使用BeautifulSoup4和python 3删除此页面上所有插曲按钮(EP21221110,…)的链接。这是我用来检索网页源代码的代码:
from bs4 import BeautifulSoup
import requests as rq
webpage=rq.get('https://gogoanime.pe/category/boruto-naruto-next-generations').text
SourceCode=BeautifulSoup(webpage,'html.parser')
print(SourceCode.prettify())
问题是,我使用此python代码获得的源代码与我在浏览器上使用“inspect element”选项查看的源代码不同
首先,在我的浏览器中,我看到有一个标记:
<div id="load_ep"> <ul id="episode_related">
与家长:
<div class="anime_video_body" style="padding: 0 20px 20px 20px;">
包含我想要的所有插曲链接。但是,我在python代码的输出中看不到这个元素,因此无法访问这些元素
我想有权获得原始代码使用美丽的汤为了获得所有的链接,请教我如何才能做到这一点。 非常感谢您的帮助
这些链接的html由浏览器中运行的JavaScript生成。具体来说,它是名为:
https://cdn.gogocdn.net/files/gogo/js/main.js?v=5.1
的JS文件中详细说明的loadListEpisode
函数的结果在函数定义中,包含链接的html的请求url如下所示:
您可以使用您拥有的html页面,自己动态构造该端点,然后解析出从请求响应到该端点的链接:
试着这样做:
输出:
相关问题 更多 >
编程相关推荐