如何在Python中将HTML转换为不带标记的文本？

2条回答

网友

1楼 · 编辑于 2024-06-26 13:22:54

我喜欢用下面的方法。在将字符串传递给strip_tags(html)以处理新行之前，可以对该字符串执行手动操作.replace('<br>','\r\n')。在

from HTMLParser import HTMLParser

class MLStripper(HTMLParser):
    def __init__(self):
        self.reset()
        self.fed = []
    def handle_data(self, d):
        self.fed.append(d)
    def get_data(self):
        return ''.join(self.fed)

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

网友

2楼 · 编辑于 2024-06-26 13:22:54

可以去掉标记并用空格替换它们（如果需要）：

import re

myString = re.sub(r"<(/)?br(/)?>", "\n", myString)
myString = re.sub(r"<[^>]*>", " ", myString)

编程相关推荐

CentOS上的java Spring Boot简易应用程序需要很长时间才能启动
java如何检查字符串值是否等于null？
收集器中的java映射值。分组方式（）
java需要支持Azure AD B2C webapp集成
java如何加入线程以停止它？
java如何使用意图传递类的对象？
java如何在战争环境中发现CDI生产者？
多模块项目中java奇怪的编译器行为
java如何在web应用程序中管理密码？
java从http服务器、filehandler中删除冗余代码

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在Python中将HTML转换为不带标记的文本？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >