from selenium import webdriver
from selenium.webdriver.firefox.firefox_binary import FirefoxBinary
from bs4 import BeautifulSoup
url = "http://www.sanzarrugby.com/therugbychampionship/match-centre/?season=2018&competition=214&match=2891#matchstatstab"
browser = webdriver.Firefox()
browser.get(url)
soup = BeautifulSoup(browser.page_source, "html.parser")
data = [v.text for v in soup.svg.find_all('tspan')]
print data
你的主要问题是这个网站使用Javascript创建内容。很可能可以确定它调用以获取所需的数据并直接请求,或者另一种方法是使用
selenium
来自动化浏览器。这将等待网页完全呈现,然后您可以从中提取完整的HTML。在然后可以使用
beautifulsoup
帮助解析返回的HTML。例如:为您提供
^{pr2}$data
的条目列表,如下所示:您需要研究如何安装这些软件包。在
相关问题 更多 >
编程相关推荐