如何使用字符串d的RandomForestClassifier - 问答 - Python中文网

如何使用字符串d的RandomForestClassifier

2024-09-30 06:24:16 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我用sklearn建立了RandomForestClassifier模型。在

我的数据集中有一个字符串数据和folat数据。在

它会显示出来的

could not convert string to float

我跑完之后

^{pr2}$

如何使用混合数据构建RandomForest模型？在

Tags： to 数据字符串模型 convert string not sklearn

1条回答

网友

1楼 · 发布于 2024-09-30 06:24:16

这是一个scikit学习约定：估计器接受数字矩阵，而不是字符串或其他数据类型。这使得它们对数据类型是不可知的-每个估计器可以处理表格、文本数据、图像等，但这意味着您需要将数据（在您的情况下是文本）转换为数字。在

有很多方法可以将文本转换为数字。最简单的方法是“单词包”—对于每个可能的单词都有一个列，如果文档中有单词，文档的列中有1（或字数），否则为0。scikit learn为此提供了CountVectorizer（以及其他一些向量器）：

from sklearn.feature_extraction.text import CountVectorizer
vec = CountVectorizer()
X = vec.fit_transform(docs)
clf = RandomForestClassifier()  
clf.fit(X, y)

完整的示例请参见http://scikit-learn.org/stable/auto_examples/text/document_classification_20newsgroups.html，有关文本矢量化的更多信息，请参见http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction。在

相关问题更多 >

编程相关推荐

热门问题

热门文章