我有一些与文本有关的任务,我需要正确地将字符串拆分成单词。 我的任务是使用Python3。在
这种方式不适合我:
re.sub("[^\w]", " ", hotelName.lower()).split()
因为像这样的句子中的单词:
^{pr2}$被吐在名单上:
['st', 'augst', 'bridge', 'south', 'west', 'torreluca', 'b', 'b', 'o',
'dell', 'cabin', 'wastlgasse', 'mm', '505']
但我需要以这种方式拆分术语(以保存整个术语):
["st.augst", "bridge", "South-West", "Torreluca", "B&B", "O'Dell",
"Cabin", "Wastlgasse", "MM-505"]
这意味着我需要拆分文本:
如果熟悉regexp的人能帮我完成这项任务,我将非常感激。从文档中获取术语似乎是相当常见的任务。在
更新了一个wser来使用python3
也许有更好的方法,但以下哪种方法有效:
输出:
^{pr2}$Regex模式
[()!?,]|\.?\s+
可以像“all characters'(',')','!', '?' 或者','或者前面可以加一个点的空白因为有时我们要拆分与''完全匹配的字符串部分,例如,
re.split
将返回包含空字符串的列表,这就是为什么我在第4行过滤输出列表。搜索单词边界之间的非空白模式
\b
:输出:
^{pr2}$首先,把你不想要的东西翻译出来,然后再分开。
相关问题 更多 >
编程相关推荐