分析内部元素为空的元素的文本

2条回答

网友

1楼 · 编辑于 2024-09-30 14:18:32

我不认为标签是空的是你的问题。xml.etree可能不希望您将子元素和纯文本节点混合在一起。在

BeautifulSoup非常适合解析格式不好的XML或HTML：

import BeautifulSoup
soup = BeautifulSoup.BeautifulSoup(open('in.html').read())
print "\n".join(["<line>%s</line>" % node.strip() for node in soup.find('td').contents if isinstance(node, BeautifulSoup.NavigableString)])

网友

2楼 · 编辑于 2024-09-30 14:18:32

您需要使用<；br>；元素的.tail属性。在

import xml.etree.ElementTree as et

doc = """<TD>
  Textline1<BR/>
  Textline2<BR/>
  Textline3
</TD>
"""

e = et.fromstring(doc)

items = []
for x in e.getiterator():
    if x.text is not None:
        items.append(x.text.strip())
    if x.tail is not None:
        items.append(x.tail.strip())

doc2 = et.Element("lines")
for i in items:
    l=et.SubElement(doc2, "line")
    l.text = i

print(et.tostring(doc2))

相关问题更多 >

编程相关推荐

热门问题

热门文章

分析内部元素为空的元素的文本

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >