我有一个来自csv文件的数据集(考虑数据集.csv)具有二进制表示的特征(381个特征)和11个类。下面是一个示例。你知道吗
#features-> A,B,C,D,E,......Y,X,Class
raw1 0,1,1,1,0,......1,1,9
raw2 0,1,0,0,0,......0,0,8
raw3 0,1,1,1,0,......1,0,8
....
raw54000 0,1,0,0,0,......1,0,3
我现在面临的问题是上课不均衡。因此,我将采用分层抽样法,从每个类中抽取250个实例,并为每个类创建500棵树自举。自我有11个类,每棵树都将使用11*250=2750个实例进行训练。我对weka
非常熟悉,但似乎没有这样的选择。你知道吗
其他数据分析任务主要是由Python使用pandas完成的。但是有人告诉我,这可以很容易地通过R
来完成,我几乎没有经验。如果有人能用Python(pandas)/scikit learning
或R
指导我如何做到这一点,我将不胜感激
目前没有回答
相关问题 更多 >
编程相关推荐