我在我的字典(CountVectorizer)中发现了一些非英语单词,我想删除:
verified={'日本': '19 日本',
'له': 'إستعداد له',
'لسنا': 'القادم لسنا',
'غيتس': 'بيل غيتس',
'على': 'على إستعداد',
'بيل': 'بيل غيتس',
'الوباء': 'الوباء القادم',
'إستعداد': 'إستعداد له',
'és': 'koronavírus és',
'állnak': 'kik állnak',
'zu': 'könig zu',
'zero': 'agenda zero'}
我的尝试是使用nltk,特别是words
:
import nltk
words = set(nltk.corpus.words.words())
not_en_list = [x for x, v in verified.items() if v!='[]' if x not in words]
但当我运行它时,没有应用任何更改。还有非英语单词。 请注意,我提供的示例是一个数据示例:我有数千个英语单词,但有一些非英语单词需要删除,而无需复制和粘贴列表
由于未修改任何现有数据结构,因此不会应用任何更改
not_en_list
将被生成,但verified
将不会被修改。试试这个,如果不是,请张贴一个最低限度的工作示例也许这可以帮助你:
相关问题 更多 >
编程相关推荐