我想计算我的数据集的每个单词的information gain
,但我只在我的研究和应用中得出这个解。Mutual information gain
。你知道吗
dataset = pd.read_csv("labelled_text.txt", delimiter="\t")
vectorizer = TfidfVectorizer(stop_words = 'english')
X = vectorizer.fit_transform(dataset.Sentence)
Y = dataset['Class']
res_mi = dict(zip(vectorizer.get_feature_names(), mutual_info_classif(X, Y, discrete_features=True)))
它们在sklearn中的计算是一样的吗?你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐