我试图在这个:http://www.baseball-reference.com/teams/BOS/2013.shtml网页上刮“团队击球”表。我有两个问题。在
以下是XPATH代码:
item ['rank'] = stats.select('//table[@id="team_batting"]/tbody/tr/td[1]/text()')[count].extract()
item ['position'] = stats.select(('//table[@id="team_batting"]/tbody/tr/td[2]/strong/text()') or ('//table[@id="team_batting"]/tbody/tr/td[2]/text()'))[count].extract()
item ['name'] = stats.select('//table[@id="team_batting"]/tbody/tr/td[3]/a/text()')[count].extract()
谢谢!在
第1期:
您的XPath是正确的,我已经测试了它并获得了所有43个节点。在
我想你得到34,因为你用
^{pr2}$[count]
对结果进行切片。所以你只能得到部分结果。在问题2:
这样的
or
肯定行不通。您只需更改一点XPath就可以获得文本,而不必担心是否存在强。在使用
//
代替/
。这将检索所有子体文本节点。您可以看到结果:我使用的片段:
编辑:
相关问题 更多 >
编程相关推荐