如何将tfidf应用于文本行

def remove_punctuations(text): for punctuation in string.punctuation: text = text.replace(punctuation, '') return text df["punc_blurb"] = df["blurb"].apply(remove_punctuations) df = pd.DataFrame(df["punc_blurb"]) vectoriser = TfidfVectorizer() df["blurb_Vect"] = list(vectoriser.fit_transform(df["punc_blurb"]).toarray()) df_vectoriser = pd.DataFrame(x.toarray(), columns = vectoriser.get_feature_names()) print(df_vectoriser)

1条回答

网友

1楼 · 发布于 2024-07-07 00:25:29

如果使用TfidfVectorizer，则不需要标点删除程序。它将根据默认的token_pattern参数自动处理标点：

from sklearn.feature_extraction.text import TfidfVectorizer

df = pd.DataFrame({"blurb":["this is a sentence", "this is, well, another one"]})
vectorizer = TfidfVectorizer(token_pattern='(?u)\\b\\w\\w+\\b')
df["tf_idf"] = list(vectorizer.fit_transform(df["blurb"].values.astype("U")).toarray())
vocab = sorted(vectorizer.vocabulary_.keys())
df["tf_idf_dic"] = df["tf_idf"].apply(lambda x: {k:v for k,v in dict(zip(vocab,x)).items() if v!=0})

相关问题更多 >

编程相关推荐

热门问题

热门文章