在公告选项卡中查找tfidf值

2024-10-16 22:32:27 发布

您现在位置：Python中文网/ 问答频道 /正文

6624

网友

男 | 程序猿一只，喜欢编程写python代码。

我想对公告进行分析。我必须计算“tf”和“idf”值。但我认为价值观这是不现实的。代码有问题吗

“阻止”一行是公告。第一个公告是《库尔斯·凯·塔里赫·吉里什·卡什·萨亚特》（kurs kayıt tarih progra girişıkışsaat）

tf1 = (train['stemming'][0:1]).apply(lambda x: pd.value_counts(x.split(" "))).sum(axis = 0).reset_index()  #Term frequency
tf1.columns = ['words','tf']

for i,word in enumerate(tf1['words']):    #Inverse Document Frequency
  tf1.loc[i, 'idf'] = np.log(train.shape[0]/(len(train[train['stemming'].str.contains(word)])))

tf1['tf-idf'] = tf1['tf'] * tf1['idf'] # 3.4 Term Frequency – Inverse Document Frequency (TF-IDF)

对于第一个单词（kurs），根据 TF（t）=（术语t在文档中出现的次数）/（文档中术语的总数）But results is that

Tags： tf train 公告 document word 术语 words frequency

1条回答

网友
1楼 · 发布于 2024-10-16 22:32:27

问题是，当你计算tf时，你只计算每个单词的出现次数。您需要将该值除以不同单词的总数

在公告选项卡中查找tfidf值

相关问题更多 >

编程相关推荐

热门问题

热门文章

在公告选项卡中查找tfidf值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >