如何计算信息增益?

2024-09-28 01:26:29 发布

您现在位置:Python中文网/ 问答频道 /正文

我想计算我的数据集的每个单词的information gain,但我只在我的研究和应用中得出这个解。Mutual information gain。你知道吗

dataset = pd.read_csv("labelled_text.txt", delimiter="\t")

vectorizer = TfidfVectorizer(stop_words = 'english')
X = vectorizer.fit_transform(dataset.Sentence)
Y = dataset['Class']

res_mi = dict(zip(vectorizer.get_feature_names(), mutual_info_classif(X, Y, discrete_features=True)))

它们在sklearn中的计算是一样的吗?你知道吗


Tags: csv数据texttxtreadinformation单词dataset

热门问题