如何获得最重要单词的TFIDF分数？

from sklearn.feature_extraction.text import TfidfVectorizer tfidf = TfidfVectorizer() X_tfidf = tfidf.fit_transform(df['liststring']).toarray() vocab = tfidf.vocabulary_ reverse_vocab = {v:k for k,v in vocab.items()} feature_names = tfidf.get_feature_names() df_tfidf = pd.DataFrame(X_tfidf, columns = feature_names) idx = X_tfidf.argsort(axis=1) tfidf_max10 = idx[:,-10:] df_tfidf['top10'] = [[reverse_vocab.get(item) for item in row] for row in tfidf_max10 ] df_tfidf['top10'] 0 [kind, pose, world, preventive, sufficient, ke... 1 [mode, california, diseases, evidence, zoonoti... 2 [researcher, commentary, allegranzi, say, mora... 3 [carry, mild, man, whatever, suffering, downpl... 4 [region, service, almost, wednesday, detect, f... ... 754 [americans, plan, year, black, online, shop, s... 755 [relate, manor, tuesday, death, portobello, ce... 756 [one, october, eight, exist, transmit, cluster... 757 [wolfe, shelter, county, resident, cupertino, ... 758 [firework, year, blasio, day, marching, reimag...

1条回答

网友

1楼 · 发布于 2024-09-30 16:32:15

df_tfidf['top10'] = [[(reverse_vocab.get(item), X_tfidf[i, item])  for item in row] 
                     for i, row in enumerate(tfidf_max10) ]

测试用例：

df = pd.DataFrame(
    {'liststring': ['this is a cat', 'that is a dog', "a apple on the tree"]}
)
tfidf = TfidfVectorizer()
X_tfidf = tfidf.fit_transform(df['liststring']).toarray()
vocab = tfidf.vocabulary_
reverse_vocab = {v:k for k,v in vocab.items()}
feature_names = tfidf.get_feature_names()
df_tfidf = pd.DataFrame(X_tfidf, columns = feature_names)
idx = X_tfidf.argsort(axis=1)
tfidf_max2 = idx[:,-2:]
print ([[(reverse_vocab.get(item), X_tfidf[i, item])  for item in row] 
                     for i, row in enumerate(tfidf_max2) ])

输出：

[[('cat', 0.6227660078332259), ('this', 0.6227660078332259)],
 [('dog', 0.6227660078332259), ('that', 0.6227660078332259)], 
 [('the', 0.5), ('tree', 0.5)]]

相关问题更多 >

编程相关推荐

热门问题

热门文章