包装不同框架的抽象ETL过程设计体系结构

2024-06-01 10:58:36 发布

您现在位置:Python中文网/ 问答频道 /正文

我打算开发一个基于python的抽象ETL管道框架,该框架应适用于不同的框架,如Tensorflow、PySpak、Scikit等等。这样做的动机是

  • 1) 将训练和得分分开
  • 2) 在中有一个清晰的etl描述
  • 3) 能够在可能不同的系统上执行上述不同步骤
  • 4) 独立保存和加载管道流程框架,这是1)所必需的

以上三种方法都提供了一些流水线概念(PySpark.ml piplines、Transformers和pipelines加上Sklearn中的fit()和transform()),而afaict的主要问题是,当诸如插补器之类的对象发生变化时,抽象基类将需要编写大量的包装,并且需要进行大量的维护

另一个主要动机是包含元数据,元数据还包含有关哪些转换(插补、剪辑、用户定义的方法)是有用的,并且应该应用于正确使用表的信息。有了这一点,联合的方式将是很好的

我的问题:你有没有做过类似的事情,你有没有想法如何应对包装山或者更好的方法,尤其是

谢谢你的建议


Tags: 数据方法框架概念管道tensorflow系统步骤