用NLTK区分单词和非单词

2024-09-23 22:20:36 发布

您现在位置:Python中文网/ 问答频道 /正文

在文本的引理化之后,我有一个引理列表。对于这个列表中的每一个元素,我想弄清楚它是一个单词(“猫”,“狗”,“走”,“红”)还是一个非单词(“.”,“rand\u yh4jhdf”,“''”,“100x200”,“42,44,46”,“22:00”,“xxx\uuuuuuu BATMAN\uuuuuuuuuuuxxx”)。 这个问题有简单的解决方法吗? 如何使用Python和NLTK区分word和non-word?你知道吗

升级。(关于单词是什么的问题)我想把我的单子从垃圾中清除。把完全不是一个字的东西去掉。不要碰复杂的边缘情况。你知道吗


Tags: 方法文本元素列表单词wordxxx区分
1条回答
网友
1楼 · 发布于 2024-09-23 22:20:36

以下只返回不带数字和标点符号的字符串:

import re
test = [".","rand_yh4jhdf","''","100x200","42,44,46","22:00","xxx___BATMAN___xxx", "dog", "cat", "computer"]

words = [word for word in test if re.match("^[a-zA-Z]*$", word)]
print(words)

输出:

['dog', 'cat', 'computer']

相关问题 更多 >