树分类器的极高精度度量

2024-05-19 08:58:01 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在做一个项目,将总统辩论推文分为中立、积极和消极三类。(不是当前的辩论数据集)。我正在使用Decision treesDecision tree ensembleAdaBoost进行训练。问题是我得到了100%的准确率,这是非常奇怪和不可能的。你知道吗

我得到的数据是bag-of-words模型的形式。词汇表中的每个单词都由0/1表示,这取决于该单词是否出现在每个tweet中。我已经在问题的最后加上了数据。df_obama是一个包含所有关于奥巴马的推文的数据框。你知道吗

df_Obama = pd.DataFrame.from_csv("../data/Obama_BagOfWords.csv")
df_Obama = df_Obama.reindex(np.random.permutation(df_Obama.index)).reset_index()
dataFeatures = df_Obama[allAttribs_Obama]
targetVar = list(df_Obama['Class'])

splitRatio = 0.9
splitPoint = int(splitRatio*len(dataFeatures))
dataFeatures_train = dataFeatures[:splitPoint]
dataFeatures_test = dataFeatures[splitPoint:]

targetVar_train = targetVar[:splitPoint]
targetVar_test = targetVar[splitPoint:]

clfObj = tree.DecisionTreeClassifier()
clfObj.fit(dataFeatures_train,targetVar_train)
preds = list(clfObj.predict(dataFeatures_test))
accScore = accuracy_score(targetVar_test,preds)
labels = [1,-1,0]

precision = precision_score(targetVar_test,preds,average=None,labels=labels)
recall = recall_score(targetVar_test,preds,average=None,labels=labels)
f1Score = f1_score(targetVar_test,preds,average=None,labels=labels)

print("Overall Acurracy",accScore)
print("precision",precision)
print("recall",recall)
print("f1Score",f1Score)

Overall Acurracy 1.0
precision [ 1.  1.  1.]
recall [ 1.  1.  1.]
f1Score [ 1.  1.  1.]

我就是搞不懂为什么会这样?指标如此之高有什么原因吗?我也尝试了不同的列车试验分流比,结果似乎没有什么不同。你知道吗

注: 以下是数据信息:

df_Obama.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5465 entries, 0 to 5464
Columns: 13078 entries, level_0 to zzzzzzzzzz
dtypes: int64(13078)
memory usage: 545.3 MB

df_Obama.head(3)
0023Washington  08hayabusa  09Its   .... 09what 1000000th   
0               1           0            1       0
1               0           0            0       0
0               0           0            0       0

Tags: 数据testdflabelstrainprecisionscoreprint
1条回答
网友
1楼 · 发布于 2024-05-19 08:58:01

分类器是否可以看到目标值?df_Obama['Class']是否包含在特性数组中?不清楚是因为没有显示allAttribs_Obama的值。你知道吗

还可以查看documentation for decision trees on scikit-learn,具体来说:

"Decision trees tend to overfit on data with a large number of features."

您可能想尝试减少功能空间(请查看scikit learn的documentation on feature selection)。你知道吗

另一方面,您可以使用^{}来创建训练集和测试集。你知道吗

相关问题 更多 >

    热门问题