解析lxml.etree.\u元素内容

<td align="center" valign="top"> <a href="ConfigGroups.aspx?cfgID=451161&prjID=11778&grpID=DTST" target="_blank"> 5548U </a> Power La Vaca (M8025K) Linux 4.2.x.x </td>

解决方案

显式解决方案（使用芬恩的建议itertext()）：

import lxml.etree as ET td_html = """ <td align="center" valign="top"> <a href="ConfigGroups.aspx?cfgID=451161&prjID=11778&grpID=DTST" target="_blank"> 5548U </a> Power La Vaca (M8025K) Linux 4.2.x.x </td> """ td_elem = ET.fromstring(td_html) print "SUCCESS", ' '.join([txt.strip() for txt in td_elem.itertext()])

2条回答

网友

1楼 · 编辑于 2024-10-01 17:38:02

我知道一定有更好的办法，但这是有效的。在

link = td_elem.find('a').text.strip()
text = ''.join(td_elem.itertext()).strip()
text.split(link)[1]

输出是Power La Vaca（M8025K）Linux 4.2.x.x

更新：如果你想用空格来代替那些 ，这实际上更好

^{pr2}$

实际上，mapstr并不需要它，但是我可以想象其他值。在

网友

2楼 · 编辑于 2024-10-01 17:38:02

在使用XML时，即使在Python中，我也喜欢尝试使用可用的特定于域的工具。对于解析XML片段，XPath适合我。在

>>> td_elem = ET.fromstring(td_html)
>>>
>>> # Use XPath to grab just the text nodes under <td/>, 
>>> # ignoring any text nodes in child nodes of <td/> (i.e., <a...>5548U</a>)
>>> print(td_elem.xpath('/td/text()'))
['\n  ', 'Power La Vaca', '(M8025K)', 'Linux 4.2.x.x', '\n']
>>>
>>> # Make it a little cleaner
>>> ' '.join(x.strip() for x in td_elem.xpath('/td/text()'))
' Power La Vaca (M8025K) Linux 4.2.x.x '
>>>
>>> # Just for reference, grab all text nodes with '//'
>>> ' '.join(x.strip() for x in td_elem.xpath('/td//text()'))
' 5548U Power La Vaca (M8025K) Linux 4.2.x.x '

结果

问题

解决方案

相关问题更多 >

编程相关推荐

热门问题

热门文章