在Python中搜索Unicode字符

1条回答

网友

1楼 · 发布于 2024-10-06 17:45:41

如果我没听错，你只需把句子分成单词，在每个单词上循环，检查句子是否以所需字符结尾或开头，例如：

>>> sentence = ['AASFG', 'BBBSDC', 'FEKGG', 'SDFGF']
>>> [word for word in sentence.split() if word.endswith("GF")]
['SDFGF']

sentence.split()可能会被nltk.tokenize.word_tokenize(sentence)之类的东西代替

更新，关于评论：

How can get word in-front of that and behind it

enumerate函数可用于给每个单词一个数字，如下所示：

^{pr2}$

如果执行相同的循环，但保留索引：

>>> results = [(idx, word) for (idx, word) in enumerate(sentence) if word.endswith("GG")]
>>> print results
[(2, 'FEKGG')]

…您可以使用索引来获取下一项或上一项：

>>> for r in results:
...     r_idx = r[0]
...     print "Prev", sentence[r_idx-1]
...     print "Next", sentence[r_idx+1]
...
Prev BBBSDC
Next SDFGF

您需要处理匹配第一个或最后一个单词（if r_idx == 0，if r_idx == len(sentence)）的情况