我正在尝试导出我错误分类的每条tweet。在
我使用以下代码(在线获取并调整),它使用混淆矩阵来确定哪些推文被错误分类:
misclassified_svm = []
misclassified_svm_details = []
for predicted in event_id_df.event_id:
for actual in event_id_df.event_id:
if predicted != actual and conf_mat_svm[actual, predicted] >= 3:
misclassified_svm.append("'{}' predicted as '{}' : {} examples.".format(id_to_event[actual], id_to_event[predicted],
conf_mat_svm[actual,predicted]))
misclassified_svm_details.append(testing_data_svm.loc[testing_data_svm.index[(testing_data_svm.actual_event_id == actual)& (testing_data_svm.predicted_event_id == predicted)]][['actual_event_type', 'preprocessed']])
这将在列表中填充错误分类的概述。如下所示:
目的是用每个错误分类的tweet填充列表错误分类的_svm_details,这样我就能理解导致错误分类的特征。相反,它创建一个数据帧列表。如下所示:
我希望最终结果是一个可以导出的变量,它包含列表中每个数据帧的每一行。在
为了清楚起见,我将使用不同的数据集运行此代码,因此我需要建议的解决方案具有灵活性,以适应列表中不同数量的数据帧和每个数据帧中不同数量的条目。在
为了完整起见,以下是我失败的尝试:
^{pr2}$这只需创建一个包含36个条目的列表,循环0-5次6次。在
与其将数据帧附加到列表中,您可以从一开始就将错误分类的_svm_details`作为一个数据帧,然后将生成的每个数据集追加到其中。在
所以你的代码应该是:
相关问题 更多 >
编程相关推荐