2024-09-30 06:24:16 发布
网友
我用sklearn建立了RandomForestClassifier模型。在
sklearn
RandomForestClassifier
我的数据集中有一个字符串数据和folat数据。在
它会显示出来的
could not convert string to float
我跑完之后
如何使用混合数据构建RandomForest模型?在
RandomForest
这是一个scikit学习约定:估计器接受数字矩阵,而不是字符串或其他数据类型。这使得它们对数据类型是不可知的-每个估计器可以处理表格、文本数据、图像等,但这意味着您需要将数据(在您的情况下是文本)转换为数字。在
有很多方法可以将文本转换为数字。最简单的方法是“单词包”—对于每个可能的单词都有一个列,如果文档中有单词,文档的列中有1(或字数),否则为0。scikit learn为此提供了CountVectorizer(以及其他一些向量器):
from sklearn.feature_extraction.text import CountVectorizer vec = CountVectorizer() X = vec.fit_transform(docs) clf = RandomForestClassifier() clf.fit(X, y)
完整的示例请参见http://scikit-learn.org/stable/auto_examples/text/document_classification_20newsgroups.html,有关文本矢量化的更多信息,请参见http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction。在
这是一个scikit学习约定:估计器接受数字矩阵,而不是字符串或其他数据类型。这使得它们对数据类型是不可知的-每个估计器可以处理表格、文本数据、图像等,但这意味着您需要将数据(在您的情况下是文本)转换为数字。在
有很多方法可以将文本转换为数字。最简单的方法是“单词包”—对于每个可能的单词都有一个列,如果文档中有单词,文档的列中有1(或字数),否则为0。scikit learn为此提供了CountVectorizer(以及其他一些向量器):
完整的示例请参见http://scikit-learn.org/stable/auto_examples/text/document_classification_20newsgroups.html,有关文本矢量化的更多信息,请参见http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction。在
相关问题 更多 >
编程相关推荐