树分类器的极高精度度量

df_Obama = pd.DataFrame.from_csv("../data/Obama_BagOfWords.csv") df_Obama = df_Obama.reindex(np.random.permutation(df_Obama.index)).reset_index() dataFeatures = df_Obama[allAttribs_Obama] targetVar = list(df_Obama['Class']) splitRatio = 0.9 splitPoint = int(splitRatio*len(dataFeatures)) dataFeatures_train = dataFeatures[:splitPoint] dataFeatures_test = dataFeatures[splitPoint:] targetVar_train = targetVar[:splitPoint] targetVar_test = targetVar[splitPoint:] clfObj = tree.DecisionTreeClassifier() clfObj.fit(dataFeatures_train,targetVar_train) preds = list(clfObj.predict(dataFeatures_test)) accScore = accuracy_score(targetVar_test,preds) labels = [1,-1,0] precision = precision_score(targetVar_test,preds,average=None,labels=labels) recall = recall_score(targetVar_test,preds,average=None,labels=labels) f1Score = f1_score(targetVar_test,preds,average=None,labels=labels) print("Overall Acurracy",accScore) print("precision",precision) print("recall",recall) print("f1Score",f1Score) Overall Acurracy 1.0 precision [ 1. 1. 1.] recall [ 1. 1. 1.] f1Score [ 1. 1. 1.]

df_Obama.info() <class 'pandas.core.frame.DataFrame'> RangeIndex: 5465 entries, 0 to 5464 Columns: 13078 entries, level_0 to zzzzzzzzzz dtypes: int64(13078) memory usage: 545.3 MB df_Obama.head(3) 0023Washington 08hayabusa 09Its .... 09what 1000000th 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0

1条回答

网友

1楼 · 发布于 2024-05-19 08:58:01

分类器是否可以看到目标值？df_Obama['Class']是否包含在特性数组中？不清楚是因为没有显示allAttribs_Obama的值。你知道吗

还可以查看documentation for decision trees on scikit-learn，具体来说：

"Decision trees tend to overfit on data with a large number of features."

您可能想尝试减少功能空间（请查看scikit learn的documentation on feature selection）。你知道吗

另一方面，您可以使用^{}来创建训练集和测试集。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章