如何将多列数据帧中的单列转换为CountVectorizer的序列?
我有一个包含2列x 9372条记录(行)的熊猫数据帧:
twodig
,是一个整数descrp
,是varchar删除停止字和特殊字符后,我只想在descrp
列上使用CountVectorizer,但仍然保留twodig
。你知道吗
import pandas
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
bowmatrix = vectorizer.fit_transform(df)
但是,运行CountVectorizer需要将数据帧转换为一个系列,然后使用CountVectorizer运行。你知道吗
corpus = pd.Series(df)
但是当我运行脚本时,结果会出现错误:传递的项数错误2,placement意味着9372
您只能从数据帧中获取该列,如下:
df["descrp"]
,因此您的代码将是:你可以这样做,但在那之后就不是最理想的了。你知道吗
相关问题 更多 >
编程相关推荐