如何在数据集上计算TFIDF？

import matplotlib.pyplot as plt import numpy as np import seaborn as sns; sns.set() from sklearn.cluster import KMeans import pandas as pd import sklearn as sk import math data = pd.read_csv('D:\\Datasets\\NIPS_1987-2015.csv', index_col ="word") # retrieving row by loc method first = data["1987_1"] second = data["1987_2"] print(first, "\n\n\n", second)

word abalone 0 abbeel 0 abbott 0 abbreviate 0 abbreviated 0 .. zoo 0 zoom 0 zou 0 zoubin 0 zurich 0 Name: 1987_1, Length: 11463, dtype: int64 word abalone 0 abbeel 0 abbott 0 abbreviate 0 abbreviated 0 .. zoo 0 zoom 0 zou 0 zoubin 0 zurich 0 Name: 1987_2, Length: 11463, dtype: int64

1条回答

网友

1楼 · 发布于 2024-09-28 05:19:48

您可以执行以下操作。假设您得到了docs，它是pd.Series对象的列表，每个对象表示单个文档的词频分布。你知道吗

然后你可以重建一个语料库（单词的顺序并不重要，只是频率对TF-IDF很重要）。你知道吗

最后，使用sklearn.feature_extraction.text.TfidfVectorizer将语料库转换为TF-IDF值。你知道吗

注意：这假设您的文本（一旦重建）可以放入内存中。大多数数据集都是。但是如果不是这样，如果您希望TF-IDF直接来自docs，那么您可能必须自己实现它。你知道吗

import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

# docs = [pd.Series(...), pd.Series(..), ...]

rep_docs = [" ".join(d.repeat(d).index.values) for d in docs]

tfidf = TfidfVectorizer()
tfidf.fit(rep_docs)
res = tfidf.transform(rep_docs[:1])

print(res)
print(tfidf.vocabulary_)

产生了

# TF IDF values
(0, 10) 0.2773500981126146
(0, 8)  0.2773500981126146
(0, 5)  0.8320502943378437
(0, 4)  0.2773500981126146
(0, 1)  0.2773500981126146

# Vocabulary
{'sat': 8, 'the': 10, 'mat': 4, 'bark': 1, 'moon': 5, 'on': 7, 'at': 0, 'swam': 9, 'to': 11, 'ocean': 6, 'fish': 3, 'cat': 2}

相关问题更多 >

编程相关推荐

热门问题

热门文章