如何使用字符串d的RandomForestClassifier

2024-09-30 06:24:16 发布

您现在位置:Python中文网/ 问答频道 /正文

我用sklearn建立了RandomForestClassifier模型。在

我的数据集中有一个字符串数据和folat数据。在

它会显示出来的

could not convert string to float

我跑完之后

^{pr2}$

如何使用混合数据构建RandomForest模型?在


Tags: to数据字符串模型convertstringnotsklearn
1条回答
网友
1楼 · 发布于 2024-09-30 06:24:16

这是一个scikit学习约定:估计器接受数字矩阵,而不是字符串或其他数据类型。这使得它们对数据类型是不可知的-每个估计器可以处理表格、文本数据、图像等,但这意味着您需要将数据(在您的情况下是文本)转换为数字。在

有很多方法可以将文本转换为数字。最简单的方法是“单词包”—对于每个可能的单词都有一个列,如果文档中有单词,文档的列中有1(或字数),否则为0。scikit learn为此提供了CountVectorizer(以及其他一些向量器):

from sklearn.feature_extraction.text import CountVectorizer
vec = CountVectorizer()
X = vec.fit_transform(docs)
clf = RandomForestClassifier()  
clf.fit(X, y) 

完整的示例请参见http://scikit-learn.org/stable/auto_examples/text/document_classification_20newsgroups.html,有关文本矢量化的更多信息,请参见http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction。在

相关问题 更多 >

    热门问题