如何使用xpath提取多个html脚本标签中的文本

2条回答

网友

1楼 · 编辑于 2024-09-30 20:27:10

如果您的文档是：

<outer>This is outer text.<inner>And this is inner text.</inner>More outer text.</outer>

使用xpath表达式：/outer//text() （阅读：“outer”下面的任何文本），结果是一个如下所示的列表：

This is outer text. - And this is inner text. - More outer text.

网友

2楼 · 编辑于 2024-09-30 20:27:10

可以使用XPath的string()函数，该函数递归地将单个节点转换为字符串（可选的.表示当前节点）：

from scrapy.selector import HtmlXPathSelector

def node_to_string(node):
    return node.xpath("string(.)").extract()[0]

#                            

body = """<body>
  <div style="clear:both" id="novelintro" itemprop="description">you are foolish!<font color=red size=4>I am superman!</font></div>
  <div style="clear:both" id="novelintro2" itemprop="description">hi girl<legend >I love you!</legend></div>
  <div style="clear:both" id="novelintro3" itemprop="description">If I<legend > marry your mother<div>then I am your father!</div></legend></div>
</body>"""

hxs = HtmlXPathSelector(text=body)

# single target use
print node_to_string(hxs.xpath('//div[@id="novelintro"]'))
print 

# multi target use
for div in hxs.xpath('//body/div'):
    print node_to_string(div)
print 

# alternatively
print [node_to_string(n) for n in hxs.xpath('//body/div')]
print

输出

^{pr2}$

请注意，由于源代码中缺少空格，因此缺少空格。string()处理空白的方式与浏览器相同。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用xpath提取多个html脚本标签中的文本

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >