XPATH（同样）可选标记元素提取单个字符串

1条回答

网友

1楼 · 发布于 2024-06-28 18:47:37

识别文本“v11/4”的一种可能的方法是将位于<a>'之后的所有直接子文本节点（属于<td>）串联起来。下面是使用lxml.html的示例实现：

>>> from lxml import html
>>> raw = '''<tr>
... <td>
... <b class="black">2</b>/6 <a href="/some/link" onclick=
... "returnHtml.popup(this," title="whateveryoulike">(ABL TTTTTSSSSSS
... 11)</a>v 11/4</td>
... <td>
... <b class="black">2</b>/6 <a href="/some/link" onclick=
... "returnHtml.popup(this," title="whateveryoulike">(ABL TTTTTSSSSSS
... 11)</a>v<sup>1</sup> 11/4</td>
... </tr>'''
... 
>>> root = html.fromstring(raw)
>>> result = [''.join(txt for txt in td.xpath("a/following-sibling::text()")).strip() \
...             for td in root.xpath("//td")]
... 
>>> result
['v 11/4', 'v 11/4']

编程相关推荐

java快乐，你知道吗
java如何向字符串中的单个单词添加字母
java问题，时间单元增加24分钟
java maven焊接实例失败
用java发送带身份验证的Soap请求
java列表在ListView中找到了信标
java为什么我的图像在y值增加时不会移动？
java错误：找不到适合JsonArrayRequest的构造函数
java如何在不阻塞的情况下将一个对象转换为另一个对象
通过urlconnect的java Kerberos凭据委派？

相关问题更多 >

编程相关推荐

热门问题

热门文章

XPATH（同样）可选标记元素提取单个字符串

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >