from nltk.tokenize import WordPunctTokenizer
from nltk.corpus import wordnet
my_list_of_strings = [] # populate list before using
wpt = WordPunctTokenizer()
only_recognized_words = []
for s in my_list_of_strings:
tokens = wpt.tokenize(s)
if tokens: # check if empty string
for t in tokens:
if wordnet.synsets(t):
only_recognized_words.append(t) # only keep recognized words
您可以使用
wordnet.synsets(token)
进行检查。一定要处理标点符号,然后检查它是否在列表中。下面是一个例子:但是你真的应该为处理Twitter数据创建一些定制的逻辑,特别是处理散列标签、@replies、用户名、链接、转发等等。在
相关问题 更多 >
编程相关推荐