如何将Tfidf\u矢量器应用于整个列？

2024-05-18 14:29:39 发布

您现在位置：Python中文网/ 问答频道 /正文

5430

网友

男 | 程序猿一只，喜欢编程写python代码。

首先，我对NLP还不太熟悉，所以我可能对一个概念有错误的理解

我试图找到一种方法来矢量化整个列为1个文本，然后在得到结果后，我想适合我的目标集使用的模型。你知道吗

我目前正在使用一个管道来向量化我的数据帧列，但是我相信它们是1乘1向量化的，而不是将所有列连接在一起然后再这样做。你知道吗

下面是我的数据集的一个夸张的例子：

   data                                                 target
1 "conventional normal breast cancer test"              breast cancer test
2 "regular and conventional normal lung cancer test"    lung cancer test

基本上，我想给术语“乳房”和“肺”一个较高的tfidf分数，因为它是唯一的，我不希望我的模型因为这两种数据看起来相似而弄错

我的当前代码：

vectorizer = feature_extraction.text.TfidfVectorizer(ngram_range=(1, 3),
                         analyzer='word',)

pipe = pipeline.Pipeline([
('vectorizer', vectorizer),
('clf', linear_model.LogisticRegression())])

pipe.fit(X_train, y_train)

y_predicted = pipe.predict(X_test)

Tags：数据方法模型 test 概念 nlp 错误 train

0条回答

目前没有回答

如何将Tfidf\u矢量器应用于整个列？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何将Tfidf\u矢量器应用于整个列？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >