Python regex提取字符串

2条回答

网友

1楼 · 编辑于 2024-09-27 04:25:50

这个正则表达式更灵活，概念也更简单：“直到下一个开始的尖括号”

>>> import re                     
>>> r = re.compile(r'<test>([^<]*)</test>', re.I)
>>> r.search("<TEST>foo bar </test>").group(1)
'foo bar '
>>> r.search("<TEST>Charles Camille Saint-Saens</test>").group(1)
'Charles Camille Saint-Saens'

您应该注意到\w将不匹配-%@等。。。你知道吗

http://docs.python.org/2/library/re.html#regular-expression-syntax

您已经收到许多意见，阻止您自己解析HTML。但是我把我的答案贴出来是希望你能理解有限状态机在文本分析中的应用。HTH公司

网友

2楼 · 编辑于 2024-09-27 04:25:50

因为\w与空格不匹配。你知道吗

foo bar包含空格。你知道吗

同时</TEST>包含/，两者都不匹配\w。你知道吗

>>> re.match(r'<\w+>([\w\s]+)</\w+>', '<TEST>foo bar</TEST>')
<_sre.SRE_Match object at 0x0000000002AFDBE8>
>>> _.groups()
('foo bar',)

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python regex提取字符串

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >