文本分类准确率低，同时试图通过Twi预测用户的个性

X=pd.read_csv('vectorized500.csv') train = X.sample(frac=0.8, random_state=200) test=X.drop(train.index) y_train=train["501"] #501 is the column name where Y is in the csv file y_test=test["501"] xtrain=train.drop("501",axis=1) xtest=test.drop("501",axis=1)

1条回答

网友

1楼 · 发布于 2024-06-03 07:25:44

问题可能是您使用的数据集不平衡。在

0. 56887 INFP 1. 54607 INFJ 2. 52511 INTJ 3. 52028 ENFP 4. 24294 INTP 5. 19032 ENTJ 6. 14284 ENFJ 7. 12502 ISFJ 8. 12268 ISTP 9. 10713 ISTJ 10. 10523 ESFP 11. 8103 ESTP 12. 7436 ESFJ 13. 7016 ESTJ 14. 6725 ISFP

不平衡数据，指的是类的表示不相等的问题。有许多技术可以用来处理这种现象。在

收集更多数据
如果可能的话，试着用几个例子来收集更多的类数据。
使用其他性能指标
当数据集不平衡时，精度不是一个可以使用的指标。假设您有两个类（0和1），其中99个示例属于class 0，只有一个示例属于class 1。如果您构建的模型总是将class 0分配给每个测试点，那么最终您将获得99%的准确率，但显然这不是您想要的。除准确度外，其他一些有用的指标如下：
- 精确度/召回率/F分数（从混淆矩阵中提取）
- ROC曲线
欠采样
试着从最流行的类中删除示例，以便所有类的示例数量大致相同。丢弃数据可能不是个好主意，所以尽量避免欠采样。

相关问题更多 >

编程相关推荐

热门问题

热门文章

文本分类准确率低，同时试图通过Twi预测用户的个性

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >