首先,我对NLP还不太熟悉,所以我可能对一个概念有错误的理解
我试图找到一种方法来矢量化整个列为1个文本,然后在得到结果后,我想适合我的目标集使用的模型。你知道吗
我目前正在使用一个管道来向量化我的数据帧列,但是我相信它们是1乘1向量化的,而不是将所有列连接在一起然后再这样做。你知道吗
下面是我的数据集的一个夸张的例子:
data target
1 "conventional normal breast cancer test" breast cancer test
2 "regular and conventional normal lung cancer test" lung cancer test
基本上,我想给术语“乳房”和“肺”一个较高的tfidf分数,因为它是唯一的,我不希望我的模型因为这两种数据看起来相似而弄错
我的当前代码:
vectorizer = feature_extraction.text.TfidfVectorizer(ngram_range=(1, 3),
analyzer='word',)
pipe = pipeline.Pipeline([
('vectorizer', vectorizer),
('clf', linear_model.LogisticRegression())])
pipe.fit(X_train, y_train)
y_predicted = pipe.predict(X_test)
目前没有回答
相关问题 更多 >
编程相关推荐