SparkJob包含使用TensorF的管道到python分类器

2024-10-04 01:24:12 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用一个用scala和python编写的工具web2text。我的数据集非常大(约100吨),我需要使用Spark on Thread来处理它。到目前为止,我已经使用PipeRDD在Spark上本地运行了这个工具。我唯一想不通的是如何将预先训练好的TF模型(checkfiles、tensorflow作为lib等)包含在内,使所有节点都可以访问它

我使用的约束条件是,我无法在集群的节点上安装新软件。如果不是这样,我相信这个问题已经解决了

是否有一种部署方法,比如fatjar,它包含所有这些信息。如果我能把它集装箱化,我相信它会奏效,但似乎没有明显的办法

我是否可以重写tensorflow模型,使其只接受一个字符串,对其进行分类并在一个.py文件中返回标签


Tags: 工具数据模型节点onlibtftensorflow