将HTML列表（<li>）转换为制表符（即缩进）

2条回答

网友

1楼 · 编辑于 2024-09-27 02:24:22

您确实应该使用xml解析器来完成此操作，但要回答您的问题：

import re

def next_tag(s, tag):
    i = -1
    while True:
        try:
            i = s.index(tag, i+1)
        except ValueError:
            return
        yield i

a = "<list><list-item>First level<list><list-item>Second level</list-item></list></list-item></list>"

a = a.replace("<list-item>", "* ")

for LEVEL, ind in enumerate(next_tag(a, "<list>")):
    a = re.sub("<list>", "\n" + LEVEL * "\t", a, 1)

a = a.replace("</list-item>", "")
a = a.replace("</list>", "")

print a

这对您的示例有效，仅适用于您的示例。使用XML解析器。您可以使用xml.dom.minidom（它包含在Python中（至少2.7），无需下载任何内容）：

^{pr2}$

输出：

* First level
    * Second level
    * Second level 2
        * Third level

网友

2楼 · 编辑于 2024-09-27 02:24:22

使用Beautifulsoup，它允许您迭代标记，即使它们是自定义的。做这种手术很实用

from BeautifulSoup import BeautifulSoup
tags = "<list><list-item>First level<list><list-item>Second level</list-item></list></list-item></list>"
soup = BeautifulSoup(tags)
print [[ item.text for item in list_tag('list-item')]  for list_tag in soup('list')]

Output : [[u'First level'], [u'Second level']]

我使用了嵌套列表理解，但您可以使用嵌套for循环

^{pr2}$

我希望这对你有帮助。在

在我的示例中，我使用了beautifulsoup3，但该示例应该与BeautifulSoup4一起工作，但仅限于导入更改。在

from bs4 import BeautifulSoup

相关问题更多 >

编程相关推荐

热门问题

热门文章

将HTML列表（<li>）转换为制表符（即缩进）

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >