Python中的标签分割

2024-09-26 22:13:51 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试拆分一个包含多个单词的标签的术语,例如:

#goodmorning #everythingIsGood

我面临的问题是在个别单词没有大写的情况下提出的。我使用的是一个常用词列表,它似乎是分割取决于搜索词在列表中的位置。例如,例如

#everythingisgood

我将得到以下两个输出:

everything is good ### when everything appears first
every thing is good ### when every appears first

下面是一小段用于测试的代码:

import re

wordList = 'awe some awesome because day every everything good is morning nice thing'.split()
wordList_ = '|'.join(wordList)

def splitFunction(word):
    for wordSequence in re.findall('(?:' + wordList_ + ')+', word):
        print ('We want to split:', wordSequence)   
        for word in re.findall(wordList_, wordSequence):
            print (word)

for wordSeq in 'goodmorning! awesomeday becauseeverything isgood'.split():
    splitFunction(wordSeq)

任何帮助都将不胜感激。你知道吗

编辑:你认为(可能吗?)用尽可能长的词能奏效吗?你知道吗


Tags: inre列表foris单词wordsplit

热门问题