在Python中提取一些HTML标记值

网友

1楼 · 编辑于 2024-09-24 22:27:22

您的问题很难理解，但是从给定的输出示例来看，您似乎希望从输入文本中除去<和{}中的所有内容。可以这样做：

import re
input_text = '<a bob>i <b>c</b></a>'
output_text = re.sub('<[^>]*>', '', input_text)
print output_text

这给了你：

^{pr2}$

如果这不是你想要的，请澄清。在

请注意，解析XML的正则表达式方法非常脆弱。例如，上面的示例将在输入<a name="b>c">hey</a>上中断。（>是属性值中的有效字符：see XML specs）

网友

2楼 · 编辑于 2024-09-24 22:27:22

不要使用正则表达式解析HTML。使用像BeautifulSoup这样的HTML解析器。看看这有多简单：

from BeautifulSoup import BeautifulSoup
html = r'<a href="removed because it was too long"><b>LG</b> X110</a>'
soup = BeautifulSoup(html)
print ''.join(soup.findAll(text=True))
# LG X110

网友

3楼 · 编辑于 2024-09-24 22:27:22

你不会的

正则表达式不太适合处理HTML的嵌套结构。请改用HTML parser。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

在Python中提取一些HTML标记值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >