使用nltk从词典中删除非英语单词

verified={'日本': '19 日本', 'له': 'إستعداد له', 'لسنا': 'القادم لسنا', 'غيتس': 'بيل غيتس', 'على': 'على إستعداد', 'بيل': 'بيل غيتس', 'الوباء': 'الوباء القادم', 'إستعداد': 'إستعداد له', 'és': 'koronavírus és', 'állnak': 'kik állnak', 'zu': 'könig zu', 'zero': 'agenda zero'}

2条回答

网友

1楼 · 编辑于 2024-10-02 00:43:07

由于未修改任何现有数据结构，因此不会应用任何更改not_en_list将被生成，但verified将不会被修改。试试这个，如果不是，请张贴一个最低限度的工作示例

raw =  {'日本': '19 日本',
 'له': 'إستعداد له',
 'لسنا': 'القادم لسنا',
 'غيتس': 'بيل غيتس',
 'على': 'على إستعداد',
 'بيل': 'بيل غيتس',
 'الوباء': 'الوباء القادم',
 'إستعداد': 'إستعداد له',
 'és': 'koronavírus és',
 'állnak': 'kik állnak',
 'zu': 'könig zu',
 'zero': 'agenda zero'}

words = set(['zero'])
verified = {k: v for k, v in raw.items() if k in words}
assert verified == {'zero': 'agenda zero'}

网友

2楼 · 编辑于 2024-10-02 00:43:07

也许这可以帮助你：

import nltk
import ast
#nltk.download('words')
'''-> Remove HashTag if the word list has not been downloaded'''
dict_ = {'日本': '19 日本',
         'له': 'إستعداد له',
         'لسنا': 'القادم لسنا',
         'غيتس': 'بيل غيتس',
         'على': 'على إستعداد',
         'بيل': 'بيل غيتس',
         'الوباء': 'الوباء القادم',
         'إستعداد': 'إستعداد له',
         'és': 'koronavírus és',
         'állnak': 'kik állnak',
         'zu': 'könig zu',
         'zero': 'agenda zero'}

words = set(nltk.corpus.words.words())

new_string = ''.join(w for w in nltk.wordpunct_tokenize(str(dict_)) \
             if w.lower() in words or not w.isalpha())

new_dic = ast.literal_eval(new_string)
new_dic = {k: v for k, v in new_dic.items() if k and v is not None}
print(new_dic)

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用nltk从词典中删除非英语单词

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >