从两列数据帧对单列序列运行CountVectorizer?

2024-10-01 00:17:39 发布

您现在位置:Python中文网/ 问答频道 /正文

如何将多列数据帧中的单列转换为CountVectorizer的序列?

我有一个包含2列x 9372条记录(行)的熊猫数据帧:

  • 第一列称为twodig,是一个整数
  • 第二列称为descrp,是varchar
  • image of dataframe

删除停止字和特殊字符后,我只想在descrp列上使用CountVectorizer,但仍然保留twodig。你知道吗

import pandas
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
bowmatrix = vectorizer.fit_transform(df)

但是,运行CountVectorizer需要将数据帧转换为一个系列,然后使用CountVectorizer运行。你知道吗

corpus = pd.Series(df)

但是当我运行脚本时,结果会出现错误:传递的项数错误2,placement意味着9372


Tags: of数据imageimportdataframedf错误记录
2条回答

您只能从数据帧中获取该列,如下:df["descrp"],因此您的代码将是:

import pandas

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()

bowmatrix = vectorizer.fit_transform(df["descrp"])

你可以这样做,但在那之后就不是最理想的了。你知道吗

import pandas 
from sklearn.feature_extraction.text import CountVectorizer 

vectorizer = CountVectorizer() 
df["bowmatrix"] = vectorizer.fit_transform(df["descrp"])

相关问题 更多 >