sklearn.feature_selection chi2为不同标签标识相同的单字符和双字符

# 'Non-Hate': . Most correlated unigrams: . idiot . stupid . Most correlated bigrams: . fucking idiot . fucking bitch # 'Non-Hate': . Most correlated unigrams: . idiot . stupid . Most correlated bigrams: . fucking idiot . fucking bitch

df['category_id'] = df['Code'].factorize()[0] category_id_df = df[['Code', 'category_id']].drop_duplicates().sort_values('category_id') category_to_id = dict(category_id_df.values) id_to_category = dict(category_id_df[['category_id', 'Code']].values) df.head() from sklearn.feature_extraction.text import TfidfVectorizer tfidf = TfidfVectorizer(sublinear_tf=True, min_df=3, norm='l2', encoding='latin-1', ngram_range=(1, 2), stop_words='english') features = tfidf.fit_transform(df.Tweet).toarray() labels = df.category_id features.shape from sklearn.feature_selection import chi2 import numpy as np N = 2 for Code, category_id in sorted(category_to_id.items()): features_chi2 = chi2(features, labels == category_id) indices = np.argsort(features_chi2[0]) feature_names = np.array(tfidf.get_feature_names())[indices] unigrams = [v for v in feature_names if len(v.split(' ')) == 1] bigrams = [v for v in feature_names if len(v.split(' ')) == 2] print("# '{}':".format(Code)) print(" . Most correlated unigrams:\n. {}".format('\n. '.join(unigrams[-N:]))) print(" . Most correlated bigrams:\n. {}".format('\n. '.join(bigrams[-N:])))

1条回答

网友

1楼 · 发布于 2024-06-25 23:04:34

只有两个类，它们应该是相同的。卡方检验是发现两类之间最有区别（在某种意义上）的特征。您的引用是不同的，因为所使用的目标（labels == category_id）是一对一的区别。非常表明而不是在某个类别中的单格/双格图仍将具有该类别的高chi2测试值

相关问题更多 >

编程相关推荐

热门问题

热门文章