如何在XPath中包含格式化文本？

<td width="25%" valign="top" align="center"> <h2 class="video"><img src="content/pl_makingfood_mjadrah.jpg" alt="Thumbnail image from video" width="160" height="120" /><br /><br /> <i>Mjadra</i></h2> <p class="video">Video <br /> <a href="content/pl_makingfood_mjadrah.rm" class="main">real</a>   <a href="content/pl_makingfood_mjadrah.mp4" class="main" target="_blank">mp4</a><br /><br /> Palestinian Arabic & English <br /> <a href="content/pl_makingfood_mjadrah.doc" target="_blank" class="main"> doc </a>    <a href="content/pl_makingfood_mjadrah.pdf" target="_blank" class="main"> pdf </a></p> </td>

2条回答

网友

1楼 · 编辑于 2024-10-03 11:22:27

让我们看看scrapy shell中的不同提取模式，从示例HTML构建一个选择器：

>>> import scrapy
>>> t = '''<td width="25%" valign="top" align="center">
... <h2 class="video"><img src="content/pl_makingfood_mjadrah.jpg"     alt="Thumbnail image from video" width="160" height="120" /><br /><br />
... <i>Mjadra</i></h2>      <p class="video">Video <br />
... 
... <a href="content/pl_makingfood_mjadrah.rm" class="main">real</a>&nbsp;&nbsp;
... <a href="content/pl_makingfood_mjadrah.mp4" class="main" target="_blank">mp4</a><br /><br />
... 
... Palestinian Arabic &amp; English <br />
... <a href="content/pl_makingfood_mjadrah.doc" target="_blank" class="main">  doc </a>&nbsp; &nbsp; 
... <a href="content/pl_makingfood_mjadrah.pdf" target="_blank" class="main">  pdf </a></p>
... </td>'''
>>> selector = scrapy.Selector(text=t, type="html")

首先，让我们循环<h2 class="video">元素（使用CSS选择器），并提取循环中每个标题的字符串表示：

^{pr2}$

我们丢失了<i>信息。在

让我们尝试只获取文本节点（使用text()节点测试）：

>>> for h2 in selector.css('h2.video'):
...     print(h2.xpath('text()').extract())
... 
['\n']

更糟糕的是，我们没有在<i>元素中获取文本节点。（实际上，text()只选择直接子文本节点，而不是子节点的子节点）

让我们试试.//，也就是./descendant-or-self::node()/快捷方式：

>>> for h2 in selector.css('h2.video'):
...     print(h2.xpath('.//text()').extract())
... 
['\n', 'Mjadra']

不比使用XPath的string()好多少。在

现在，让我们使用node()节点测试，捕获元素和文本节点：

>>> for h2 in selector.css('h2.video'):
...     print(h2.xpath('node()').extract())
... 
['<img src="content/pl_makingfood_mjadrah.jpg" alt="Thumbnail image from video" width="160" height="120">', '<br>', '<br>', '\n', '<i>Mjadra</i>']

这更好，但是我们有这些<img>标记，您可能不想要。所以我们只选择文本节点和<i>s：

>>> for h2 in selector.css('h2.video'):
...     print(h2.xpath('./node()[self::text() or self::i]').extract())
... 
['\n', '<i>Mjadra</i>']
>>>

您可能需要从每个标题中提取一个字符串。因此，使用Python的join()是一个选项：

>>> for h2 in selector.css('h2.video'):
...     print( "".join(h2.xpath('./node()[self::text() or self::i]').extract()) )
... 

<i>Mjadra</i>
>>>

网友

2楼 · 编辑于 2024-10-03 11:22:27

在元素上调用text()时，只获得顶层文本节点，而您也希望向下到每个子元素，请使用.//text()：

rawTitles = response.xpath('//h2[@class="video"]//text()').extract()

然后，您可以使用str.join()将rawTitles列表中的项连接起来，但我建议您查看Item Loaders和输入和输出处理器—在这种情况下，Join()处理器是合适的。在

或者，按照Paul在注释中的建议，使用^{}XPath函数：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章