将所有HTML标签转换为符号使用python

2条回答

网友

1楼 · 编辑于 2024-10-01 00:35:33

一种更可靠的方法是递归访问每个标记，我只是在下面的示例中更改了名称，但是一旦有了标记，您可以做任何您想做的事情：

from bs4 import BeautifulSoup, element

def visit(s):
    if isinstance(s, element.Tag):
        has_children = s.find_all()
        if has_children:
            s.name = "foobar"
            for child in s:
                visit(child)
        else:
            s.name = "foobar"

要使用它：

 soup = BeautifulSoup(...)
 visit(soup)

那么任何变化都会反映在汤里。你知道吗

网友

2楼 · 编辑于 2024-10-01 00:35:33

BeautifulSoup在这里不是一个好主意-它是为解析HTML而设计的，而不是编辑它。你知道吗

而且，regex看起来不是一个很好的正则表达式（只匹配标记中的内容，而不是整个标记本身），所以我找到了一个更适合您的目的的正则表达式：

</?\w+((\s+\w+(\s*=\s*(?:".*?"|'.*?'|[\^'">\s]+))?)+\s*|\s*)/?>

此标记将匹配以下内容：

<h1>
</h1>
<img src="foo.com/image.png">

我们可以使用re.sub替换所有标记。这将查找某个正则表达式的所有匹配项，并用其他内容替换它们。以下是您如何将其用于您想做的事情：

import re

html_regex = r"""</?\w+((\s+\w+(\s*=\s*(?:".*?"|'.*?'|[\^'">\s]+))?)+\s*|\s*)/?>"""
html = "<h1>Foo</h1>"

print(re.sub(html_regex, "@", html))

这将打印：

@Foo@

相关问题更多 >

编程相关推荐

热门问题

热门文章

将所有HTML标签转换为符号使用python

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >