如何删除未知单词？

1条回答

网友

1楼 · 发布于 2024-09-28 01:23:38

您可以使用wordnet.synsets(token)进行检查。一定要处理标点符号，然后检查它是否在列表中。下面是一个例子：

from nltk.tokenize import WordPunctTokenizer
from nltk.corpus import wordnet

my_list_of_strings = []  # populate list before using

wpt = WordPunctTokenizer()
only_recognized_words = []

for s in my_list_of_strings:
    tokens = wpt.tokenize(s)
    if tokens:  # check if empty string
        for t in tokens:
            if wordnet.synsets(t):
                only_recognized_words.append(t)  # only keep recognized words

但是你真的应该为处理Twitter数据创建一些定制的逻辑，特别是处理散列标签、@replies、用户名、链接、转发等等。在

编程相关推荐

java如何使用Flyway回滚迁移？
sql试图在java中连接两个表，但我遇到了一个错误
java使用commons apache API复制文件内容
java无法解析模块
原因：java。lang.IllegalArgumentException:org。冬眠QueryException:无法解析属性：
java使用TNT4J，TrackingLogger统计数据仅显示该类的统计数据，如果我想要应用程序范围的统计数据呢？
java项目Euler#19，答案只有在1900年开始时才正确？
java显示标签上的选定值列表
java在局部变量中缓存属性吗？
java preparedStatement。setString（1，“null”）被解释为null而不是字符串（在preparedStatement.addBatch（）之后）

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何删除未知单词？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >