示例URL是“http://www.hockey-reference.com/players/c/crosbsi01/gamelog/2016”
我想抢到的表名是“常规赛”。在
我在以前的例子中是这样做的。。。在
import requests
from bs4 import *
from bs4 import NavigableString
import pandas as pd
url = 'http://www.hockey-reference.com/players/o/ovechal01/gamelog/2016'
resultsPage = requests.get(url)
soup = BeautifulSoup(resultsPage.text, "html5lib")
comment = soup.find(text=lambda x: isinstance(x, NavigableString) and "Regular Season Table" in x)
df = pd.read_html(comment)
这是我对一个类似于这个网站的方法,但是,我无法在这个页面上正确定位表。不知道我错过了什么。在
有一个表可以使用id获取:
或者只使用熊猫:
^{pr2}$您的代码永远无法工作,因为您正在查找位于标题标记
<caption>Regular Season Table</caption>
中的NavigableString而不是表中,您需要调用*
。查找_previous`*以获取表:您也可以使用
table = comment.parent.parent
,但find\u previous是一种更好的方法。在相关问题 更多 >
编程相关推荐