如何使用正则表达式抓取句子，避免标记

>>> regex = re.compile("<[^>]+/?",re.UNICODE|re.DOTALL|re.VERBOSE) >>> r = regex.search(string) >>> r <_sre.SRE_Match object at 0x87e2915436c23d50> >>> regex.match(string) <_sre.SRE_Match object at 0x87e2915436c23da8> # List the groups found >>> r.groups() () # List the named dictionary objects found >>> r.groupdict() {} # Run findall >>> regex.findall(string) [u'<jghjhgjhgjh?']

2条回答

网友

1楼 · 编辑于 2024-10-04 05:23:53

您的正则表达式正确地以<开头，但是[^>]匹配不会在?标记处停止，也不会在换行符处停止，因此它将继续匹配，直到找到>字符为止。可能尝试将它更新为<[^>\n?]+\?，这样它将匹配除>、换行符或?问号之外的任何内容，然后当它碰到后面的问号时，您将显式地将它与\?匹配。你知道吗

网友

2楼 · 编辑于 2024-10-04 05:23:53

这对你有用吗？你知道吗

<[^>]+[?]

编程相关推荐

java通过EventListener更新Hibernate实体
java将每个组合按字母顺序排列
java找不到媒体类型为application/xml+fhir的JAXBContextFinder
java ReactiveCrudePository与R2DBCrudePository
java如何在对arraylist执行某些操作后更新它而不重新启动活动
在NetBeans中，如何更改默认的JDK？
web服务轴心：获取java。RuntimeException:java。lang.UnsupportedClassVersionError:中的版本号不正确。类文件
为一个Atribut java设置多个值以筛选附加列表
如何将参数从jsp传递到java类？
opencv_contrib对java Maven的依赖

相关问题更多 >

编程相关推荐

热门问题

热门文章