根据术语列表从树中删除元素

#!/usr/bin/python from lxml import html from lxml import etree url = sys.argv[1] page = requests.get(url) tree = html.fromstring(page.content) terms = ['keyword1','keyword2','keyword3','keyword4','keyword5','keyword6','keyword7'] paragraphs = tree.xpath('//p/text()') for elem in paragraphs: if any(term in elem for term in terms): tree.remove(elem)

1条回答

网友

1楼 · 发布于 2024-05-02 08:07:42

在您的代码中，elem是一个^{}，它具有实例方法getparent。它的父节点是Element节点之一的Element对象。在

父级有一个remove方法，可用于将其从树中删除：

element.getparent().remove(element)

我不相信有更直接的方法，我也没有一个好的答案为什么没有removeself方法。在

使用示例html：

^{pr2}$

您可以在代码中看到这一点：

from lxml import html
from lxml import etree

tree = html.fromstring(content)

terms = ['keyword1','keyword2','keyword3','keyword4','keyword5','keyword6','keyword7']
paragraphs = tree.xpath('//p/text()')
for elem in paragraphs:
    if any(term in elem for term in terms):
        actual_element = elem.getparent() 
        actual_element.getparent().remove(actual_element)

for child in tree.getchildren():
    print('<{tag}>{text}</{tag}>'.format(tag=child.tag, text=child.text))

# Output:
# <p> nothing1 </p>
# <p> nothing2 </p>
# <p> nothing3 </p>

从评论来看，这段代码似乎不适合你。如果是这样，您可能需要提供有关html结构的更多信息。在

相关问题更多 >

编程相关推荐

热门问题

热门文章