我想对公告进行分析。我必须计算“tf”和“idf”值。但我认为价值观这是不现实的。代码有问题吗
“阻止”一行是公告。 第一个公告是《库尔斯·凯·塔里赫·吉里什·卡什·萨亚特》(kurs kayıt tarih progra girişıkışsaat)
tf1 = (train['stemming'][0:1]).apply(lambda x: pd.value_counts(x.split(" "))).sum(axis = 0).reset_index() #Term frequency
tf1.columns = ['words','tf']
for i,word in enumerate(tf1['words']): #Inverse Document Frequency
tf1.loc[i, 'idf'] = np.log(train.shape[0]/(len(train[train['stemming'].str.contains(word)])))
tf1['tf-idf'] = tf1['tf'] * tf1['idf'] # 3.4 Term Frequency – Inverse Document Frequency (TF-IDF)
对于第一个单词(kurs),根据 TF(t)=(术语t在文档中出现的次数)/(文档中术语的总数)But results is that
问题是,当你计算tf时,你只计算每个单词的出现次数。您需要将该值除以不同单词的总数
相关问题 更多 >
编程相关推荐