用NLTK区分单词和非单词 - 问答 - Python中文网

用NLTK区分单词和非单词

2024-09-23 22:20:36 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

在文本的引理化之后，我有一个引理列表。对于这个列表中的每一个元素，我想弄清楚它是一个单词（“猫”，“狗”，“走”，“红”）还是一个非单词（“.”，“rand\u yh4jhdf”，“''”，“100x200”，“42,44,46”，“22:00”，“xxx\uuuuuuu BATMAN\uuuuuuuuuuuxxx”）。这个问题有简单的解决方法吗？如何使用Python和NLTK区分word和non-word？你知道吗

升级。（关于单词是什么的问题）我想把我的单子从垃圾中清除。把完全不是一个字的东西去掉。不要碰复杂的边缘情况。你知道吗

Tags：方法文本元素列表单词 word xxx 区分

1条回答

网友

1楼 · 发布于 2024-09-23 22:20:36

以下只返回不带数字和标点符号的字符串：

import re
test = [".","rand_yh4jhdf","''","100x200","42,44,46","22:00","xxx___BATMAN___xxx", "dog", "cat", "computer"]

words = [word for word in test if re.match("^[a-zA-Z]*$", word)]
print(words)

输出：

['dog', 'cat', 'computer']

相关问题更多 >

编程相关推荐

热门问题

热门文章