Python中用regex替换嵌套字符串

1条回答

网友

1楼 · 发布于 2024-09-26 04:50:01

我的解决方案使用lxml和cssselect以及一些Python：

#!/usr/bin/env python

import cssselect  # noqa
from lxml.html import fromstring


html = """
<span class="italic"><span class="bold">XXXXXXXX</span></span>
<span class="italic">some text<span class="bold">nested text<span class="underline">deep nested text</span></span></span>
"""

class_to_style = {
    "underline": "u",
    "italic": "i",
    "bold": "b",
}

output = []
doc = fromstring(html)
spans = doc.cssselect("span")
for span in spans:
    if span.attrib.get("class"):
        output.append("<{0}>{1}</{0}>".format(class_to_style[span.attrib["class"]], span.text or ""))
print "".join(output)

输出：

^{pr2}$

NB:这是一个幼稚的解决方案，不能产生正确的输出，因为您必须保留一个打开的标签队列，并在最后关闭它们。在

编程相关推荐

java CDI@Alternative注释和@ApplicationScoped
java无法使用socket从服务器接收数据。recv（）
StormCrawler和Hortonworks 1.1.0.2.6.4.091之间的java Commons日志记录版本冲突
java是否可以在静态类中注入mock
用逻辑填充int[2000][2000]时发生java StackOverflow错误
java为什么返回真值？
java如何告诉springboot中的elasticsearch使用插件
java AsyncTask未按预期返回布尔值
java我无法创建JSONObject的实例
java计算最终映射中的总行数减少hadoop中的输出

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python中用regex替换嵌套字符串

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >