使用patsy.dmatrices将我的数据拆分为y、x,我将丢失观测值。例:
formula = 'target ~ v1 + v2 + v3'
y, x = patsy.dmatrices(formula, df, return_type = 'dataframe')
我的df.shape
长度约为54000000,但是在x/y分割之后,我的y.shape
和x.shape
记录了大约43000000个观察值。我已经检查了我的df.isna().sum()
,现在我坐在0位。有人能解释一下发生了什么,或者这个问题的解决方法吗?我在同一个数据帧上用一个替代变量执行了拆分,例如
formula = 'target ~ v99 + v2 + v3'
y, x = patsy.dmatrices(formula, df, return_type = 'dataframe')
并且在尺寸方面没有问题
目前没有回答
相关问题 更多 >
编程相关推荐