从xpath树中删除元素无效

from lxml import html import requests headers = {'User-Agent': 'Fiddler', 'Host': 'bilmodel.dk'} page = requests.get('https://bilmodel.dk/Sitemap/Biler', headers=headers) tree = html.fromstring(page.content) #This will create a list of car brands CarBrands = tree.xpath('//*[@id="content"]/ul[1]//text()') for nodes in CarBrands: if nodes.find('\r\n\t\t\t\t') == 0: print('Found it') nodes.getparent().remove(nodes) # Press Enter to exit window #CarBrand = input('Write car brand:') print(CarBrands)

1条回答

网友

1楼 · 发布于 2024-10-06 10:27:57

Question: I am not getting the element type that I need to be able to remove

要删除的元素是“特殊文本节点”，而不是删除，而是通过分配一个空白''来清除它。在

例如：

# Get all <li> inside <ul>[1]
 CarBrands = tree.xpath('//*[@id="content"]/ul[1]/li')

# Iterate all <li> Nodes
for node in CarBrands:
    # Findall <ul><li>...</li> ...
    li_nodes = node.findall('./ul/li')

    # Iterate all <li>
    for li in li_nodes:
        # Find the <a> inside <li>
        a = li.find('./a')

        # Clear "special text nodes"
        a.tail = ''
        print('a:{}'.format(etree.tostring(a)))

Output:

a:b'<a href="/Biler/AC/Ace/">Ace</a>'  
a:b'<a href="/Biler/AC/Cobra/">Cobra</a>'

用Python:3.4.2测试

相关问题更多 >

编程相关推荐

热门问题

热门文章