Python scikit学习说话者从句子中选择最好的单词

speakers = [0] * 10000 + [1] * 10000 vectorizer = TfidfVectorizer() vectors = vectorizer.fit_transform(sentences) kbest = SelectKBest(chi2, k=30).fit(vectors, speakers) outcome = kbest.get_support() for i in range(0,len(sentences)): if outcome[i]: print (sentences[i])

2条回答

网友

1楼 · 编辑于 2024-09-28 01:30:09

您可以获得由SelectKBest给出的前k个单词

print([vectorizer.get_feature_names()[idx] for idx,flag in enumerate(outcome) if flag])

网友

2楼 · 编辑于 2024-09-28 01:30:09

你的代码错了。您正在这样做：

outcome = kbest.get_support()
for i in range(0,len(sentences)):
    if outcome[i]:
        print (sentences[i])

kbest.get_support()将返回数据特征的布尔数组，而不是句子。但是你在句子数组中比较（迭代）它们，这没有任何意义。你知道吗

SelectKBest将根据传递给它的实际特性来决定保留或不保留哪些特性。这些特征以单词（而不是句子）的形式从TfidfVectorizer传递给它。你知道吗

另外，SelectKBest和chi2只会过滤掉（删除）那些发现独立于类的特性。所以剩下的特性对类有一些影响。但要想知道这种影响是积极的还是消极的（找到30个最好的词来区分这两个说话者），这还不够。为此，您将需要有一个分类模型，可以分配权重，这些词（特征）对应的类。你知道吗

有关更多详细信息，请参见下面的示例：

https://eli5.readthedocs.io/en/latest/tutorials/sklearn-text.html#baseline-model

相关问题更多 >

编程相关推荐

热门问题

热门文章