我正在尝试拆分一个包含多个单词的标签的术语,例如:
#goodmorning #everythingIsGood
我面临的问题是在个别单词没有大写的情况下提出的。我使用的是一个常用词列表,它似乎是分割取决于搜索词在列表中的位置。例如,例如
#everythingisgood
我将得到以下两个输出:
everything is good ### when everything appears first
every thing is good ### when every appears first
下面是一小段用于测试的代码:
import re
wordList = 'awe some awesome because day every everything good is morning nice thing'.split()
wordList_ = '|'.join(wordList)
def splitFunction(word):
for wordSequence in re.findall('(?:' + wordList_ + ')+', word):
print ('We want to split:', wordSequence)
for word in re.findall(wordList_, wordSequence):
print (word)
for wordSeq in 'goodmorning! awesomeday becauseeverything isgood'.split():
splitFunction(wordSeq)
任何帮助都将不胜感激。你知道吗
编辑:你认为(可能吗?)用尽可能长的词能奏效吗?你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐