scikitlearn进程输入作为自定义ESTM中的数据帧

2024-09-28 22:20:59 发布

您现在位置:Python中文网/ 问答频道 /正文

我想通过扩展BaseEstimator和{}来编写我自己的scikit learn估计器。在这个估计器中,我想使用Pandas数据帧操作(比如分组)。到目前为止,我有一个基本的框架:

from sklearn.base import BaseEstimator, TransformerMixin

class GroupSelector(BaseEstimator, TransformerMixin):
    def __init__(self, group_column):
        self.group_column = group_column

    def fit(self, X, y=None):
        print(type(X))
        return self

然后我按如下方式运行它(其中Xy是pandas数据帧):

^{2}$

但是,fit中的print调用表示输出是一个numpy数组。在我的fit方法中,我希望在数据帧上使用不同的分组运算符。在

scikit learn是否有理由将输入转换为numpy数组?如何将它们保存为数据帧?在


Tags: 数据selfnumpy框架pandasdefgroupcolumn