Regexp：有些问题

text = "(CNN)Meaalofa Te'o -- Buemi. Canberra," def discard_punctuation(text): regex = '\W*^\s^\d*-' return re.sub(regex, "", text) def handle_text(text): text_without_punctuation = discard_punctuation(text) words_array = text_without_punctuation.split() pass // Breakpoint handle_text(text)

1条回答

网友

1楼 · 发布于 2024-06-28 20:39:51

你对一个“词”的定义相当模糊，你可以得出：

import re

rx = re.compile(r'\s*(\S+)\s*')

string = """(CNN)Meaalofa Te'o   Buemi. Canberra,"""
words = rx.findall(string)
print(words)
# ['(CNN)Meaalofa', "Te'o", ' ', 'Buemi.', 'Canberra,']

参见a demo on ideone.com和regex101.com。你可以重新定义“单词”是什么

编程相关推荐

使用JPT测试jira性能时，java无法识别jiraaddress
java com。fasterxml。杰克逊。数据绑定。JsonMappingException:数值（1557587751202）超出int的范围
war中打包后资源中文件的java FileNotFoundException
java调整JPanel中的JTable大小
java将的ArrayList字符串转换为字符？
web项目中的java我们可以在不了解UI的情况下编写核心服务层吗？
java Android Studio如何从Firebase数据库获取名称的用户日志？
java构建同步映射，在单个键上阻塞
springboot中基于实体camelcase变量nam的java命名存储库方法
java数组行中数字的移动

相关问题更多 >

编程相关推荐

热门问题

热门文章

Regexp：有些问题

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >