我正在写一个脚本从一个网站获取音频源链接。通过抓取主页a获得可用链接的列表。但是当我抓取生成的链接时,我找不到来源。(它应该在a<;audio>;标记的href内)。
这是我的代码:
# -*- coding: utf-8 -*-
import urllib.request
from bs4 import BeautifulSoup
def getHTML(st):
with urllib.request.urlopen(site+'/',timeout=100) as response:
return response.read()
site = 'http://www.e-radio.gr'
soup = BeautifulSoup(getHTML(site), 'html.parser')
# Parse Main Page And get links
lst = list()
for a in soup.body.find_all('a', {'class' : 'erplayer'}):
item = a.get('href')
if site in item:
lst.append(item)
else:
lst.append(site + item)
print("\n".join(lst))
网站似乎没有正确加载,也没有加载音频源使用urllib.请求. 我还能用什么代替urllib.请求所以它会等待整个页面的加载。我想用一些外部的web浏览器来生成html,但是我不知道怎么做
这有点棘手,但是我们可以一步一步地来实现——首先通过
iframe
链接获得播放器的HTML。然后,获取flashplayer链接并跟踪它。然后,提取到mp3
的链接并下载流。所有这些都是在同一个网络抓取会话下进行的:相关问题 更多 >
编程相关推荐