在公告选项卡中查找tfidf值

2024-10-16 22:32:27 发布

您现在位置:Python中文网/ 问答频道 /正文

我想对公告进行分析。我必须计算“tf”和“idf”值。但我认为价值观​​这是不现实的。代码有问题吗

“阻止”一行是公告。 第一个公告是《库尔斯·凯·塔里赫·吉里什·卡什·萨亚特》(kurs kayıt tarih progra girişıkışsaat)

tf1 = (train['stemming'][0:1]).apply(lambda x: pd.value_counts(x.split(" "))).sum(axis = 0).reset_index()  #Term frequency
tf1.columns = ['words','tf']

for i,word in enumerate(tf1['words']):    #Inverse Document Frequency
  tf1.loc[i, 'idf'] = np.log(train.shape[0]/(len(train[train['stemming'].str.contains(word)])))

tf1['tf-idf'] = tf1['tf'] * tf1['idf'] # 3.4 Term Frequency – Inverse Document Frequency (TF-IDF)

对于第一个单词(kurs),根据 TF(t)=(术语t在文档中出现的次数)/(文档中术语的总数)But results is that


Tags: tftrain公告documentword术语wordsfrequency