基于RF模型的R中分层抽样

2024-10-01 02:24:44 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个来自csv文件的数据集(考虑数据集.csv)具有二进制表示的特征(381个特征)和11个类。下面是一个示例。你知道吗

#features->      A,B,C,D,E,......Y,X,Class

raw1             0,1,1,1,0,......1,1,9
raw2             0,1,0,0,0,......0,0,8
raw3             0,1,1,1,0,......1,0,8
....
raw54000         0,1,0,0,0,......1,0,3

我现在面临的问题是上课不均衡。因此,我将采用分层抽样法,从每个类中抽取250个实例,并为每个类创建500棵树自举。自我有11个类,每棵树都将使用11*250=2750个实例进行训练。我对weka非常熟悉,但似乎没有这样的选择。你知道吗

其他数据分析任务主要是由Python使用pandas完成的。但是有人告诉我,这可以很容易地通过R来完成,我几乎没有经验。如果有人能用Python(pandas)/scikit learningR指导我如何做到这一点,我将不胜感激


Tags: 文件csv数据实例示例pandas二进制特征