Scrapy:在嵌套在d中的结束标记之后获取信息

2024-07-03 06:54:30 发布

您现在位置:Python中文网/ 问答频道 /正文

我想抓住一个特定的链接。我的问题是,该链接是在没有特定标记的单元格中标识的。例如:

<td class="tableText" style="padding-left: 10px;">
      <a href="/link">John</a>;&nbsp; 
      <a href="/link">Jacob</a>;&nbsp;  (Primary) <br/>
      <a href="/link">Jingle</a>;&nbsp; 
      <a href="/link">Bud</a>;&nbsp; 
</td>

基本上,我只想抓取标记为“Jacob”的链接,通过它后面的文本(“Primary”)标识。在本例中,我的代码如下所示:

item['stuff'] = response.xpath('//div[@id = "mainBody"]/table/tr/td/a/text()').extract()

在这种情况下,我希望scrapy得到一个**[2]**。你知道吗


Tags: 标记链接stylelinkjohnleft标识class
1条回答
网友
1楼 · 发布于 2024-07-03 06:54:30

您可以使用following-sibling轴执行此操作:

>>> sel.xpath('//a[contains(following-sibling::text(), "Primary")]')
[<Selector xpath='//a[contains(following-sibling::text(), "Primary")]' data='<a href="/link">Jacob</a>'>]

相关问题 更多 >