如何将Tfidf\u矢量器应用于整个列?

2024-05-18 14:29:39 发布

您现在位置:Python中文网/ 问答频道 /正文

首先,我对NLP还不太熟悉,所以我可能对一个概念有错误的理解

我试图找到一种方法来矢量化整个列为1个文本,然后在得到结果后,我想适合我的目标集使用的模型。你知道吗

我目前正在使用一个管道来向量化我的数据帧列,但是我相信它们是1乘1向量化的,而不是将所有列连接在一起然后再这样做。你知道吗

下面是我的数据集的一个夸张的例子:

   data                                                 target
1 "conventional normal breast cancer test"              breast cancer test
2 "regular and conventional normal lung cancer test"    lung cancer test

基本上,我想给术语“乳房”和“肺”一个较高的tfidf分数,因为它是唯一的,我不希望我的模型因为这两种数据看起来相似而弄错

我的当前代码:

vectorizer = feature_extraction.text.TfidfVectorizer(ngram_range=(1, 3),
                         analyzer='word',)

pipe = pipeline.Pipeline([
('vectorizer', vectorizer),
('clf', linear_model.LogisticRegression())])

pipe.fit(X_train, y_train)

y_predicted = pipe.predict(X_test)

Tags: 数据方法模型test概念nlp错误train

热门问题