我想通过这样一个网页进行解析,只收集初学者的名字:
http://espn.go.com/nba/boxscore?gameId=400827888
我的脚本抓住了页面上所有的名字,但我不能区分底层球队(在这里是亚特兰大)的首发球员何时开始,以及顶层球队(在这里是底特律)的替补球员何时结束。真正的问题是,顶级球队的名单上可能有11-15人,所以我不能按我所理解的数字来划分。你知道吗
如前所述,这给了我前10个活塞队的名字——不是前5个活塞队,而是前5个老鹰队。我想到的一个策略依赖于logo,但考虑到它们在HTML中的编码方式,这似乎非常棘手。你知道吗
def parse_boxscore(url):
"""Gathers names of starters from both teams, stores in list"""
soup = make_soup(url)
starters = [td for td in soup.findAll("td", "name")]
return starters[0:5], starters[6:11]
谁能想出一个始终如一的策略?我不是很精通技术,所以我会牺牲相对效率的简单性(我知道,我知道)。。。你知道吗
如果你想要的只是先发球员,那就相当直接了,只要在分区内容隐藏-测试并从中提取文本td.名称标签:
这给了你:
如果你用熊猫代替靓汤,它会把桌子分开。它只得到首发球员,而不是替补球员,所以希望这不是一个问题。你知道吗
相关问题 更多 >
编程相关推荐