Python中文本数据的多输出分类器

import pandas as pd from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score from sklearn import tree from sklearn.multioutput import MultiOutputClassifier df = pd.read_csv('income_education.csv') #creating features and results for my model features = df.iloc[:,-1] results = df.iloc[:,:-1] #spliting my data into train and test features_train, features_test, result_train, result_test = train_test_split(features, results, test_size = 0.3, random_state = 42) classifier = MultiOutputClassifier(tree.DecisionTreeClassifier()) #model fitting cls = classifier model = cls.fit(features_train, result_train) pred = model.predict([cv.transform(['more'])]) print(pred) # How to check accuracy of this classifier

2条回答

网友

1楼 · 编辑于 2024-04-23 16:27:15

这仅仅是因为分类器需要浮点值，而您提供的是字符串。您需要使用LabelEncoder为标签对字符串进行编码，并使用OneHotEncoding、OrdinalEncoder等对特性进行编码

这里查看这些链接以获取有关使用sklearn编码分类（字符串）值的更多信息

更新阅读Scikit的官方文档，学习对分类值进行编码at this link。你知道吗

网友
2楼 · 编辑于 2024-04-23 16:27:15

代码中的第一个问题是需要对分类列进行编码，而且还需要onehotencoding。第二个问题是需要替换两个变量，即特性和结果

相关问题更多 >

编程相关推荐

热门问题

热门文章