我打算开发一个基于python的抽象ETL管道框架,该框架应适用于不同的框架,如Tensorflow、PySpak、Scikit等等。这样做的动机是
以上三种方法都提供了一些流水线概念(PySpark.ml piplines、Transformers和pipelines加上Sklearn中的fit()和transform()),而afaict的主要问题是,当诸如插补器之类的对象发生变化时,抽象基类将需要编写大量的包装,并且需要进行大量的维护
另一个主要动机是包含元数据,元数据还包含有关哪些转换(插补、剪辑、用户定义的方法)是有用的,并且应该应用于正确使用表的信息。有了这一点,联合的方式将是很好的
我的问题:你有没有做过类似的事情,你有没有想法如何应对包装山或者更好的方法,尤其是
谢谢你的建议
目前没有回答
相关问题 更多 >
编程相关推荐