从两个文件中加载两个数据帧(testdf和datadf),然后使用
df = pd.concat([testdf,datadf])
产生测向形状到目前为止还不错。你知道吗
现在我需要80%的训练,10%的测试,10%的验证
trndf = df.sample(frac=0.8)
返回正确的形状(39074,15)。你知道吗
tmpdf = df.drop(trndf.index)
现在,这里的想法是从df数据帧中删除39074行,这将总共留下9768行。然而,tmpdf数据帧形状是(4514,15)丢失5254行。你知道吗
df使用一个默认索引,编号从0到48841,下面是一个示例
idx age work class
0 25 Private
1 28 Private
下面的trndf数据帧样本是随机样本,我确认索引编号与df数据帧中的索引匹配
idx age work class
228 25 ?
2164 35 State-gov
开放的想法如何设法失去这些额外的行。感谢你对这方面的任何见解。谢谢
默认情况下
pd.concat
不会重置索引,因此,如果在testdf
和datadf
中都存在索引,则在对这些索引进行采样时,它们将同时被丢弃。你知道吗drop
将删除所有重复的索引,因此从testdf
和datadf
中的索引中丢失更多的行。你知道吗潜在的解决方案正在从
df = pd.concat([testdf,datadf])
变为或者
问题重现:
相关问题 更多 >
编程相关推荐