Python regex：删除某些HTML标记及其内容

1条回答

网友

1楼 · 发布于 2024-06-26 01:40:36

先做第一件事：Don’t parse HTML using regular expressions

也就是说，如果该范围标记中没有其他范围标记，则可以这样做：

text = re.sub('<span class=love>.*?</span>', '', text)

另一方面：段落标记不应该在span标记内（只有phrasing content是）。

您尝试过的表达式.*?(?=)已经非常好了。问题是，展望(?=)永远不会与它的展望相匹配。因此表达式将在关闭span标记之前立即停止。现在，您可以在末尾手动添加一个结束跨度，即.*?(?=)，但这并不是真正必要的：.*?是一个非贪婪的表达式。它将尽可能少地匹配。因此在.*?中，.*?将只匹配，直到找到一个闭合跨度，它立即停止。

编程相关推荐

java如何创建比较器
java将所有接口读入列表
java Android Studio在Webview中隐藏特定URL的操作栏
java如何在春季从云存储中生成URL文件而无需持续时间
icalendar如何使用Java以日历格式发送ics电子邮件附件？
如果textfield包含数字，则在运行时进行java检查
java util日志属性中何时需要“.level”？
java在一个字符串中显示json
跨平台日志系统的java Log4j替代方案
coldfusion在Lucee上安装Cassandra Java驱动程序

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python regex：删除某些HTML标记及其内容

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >