我使用一个用scala和python编写的工具web2text。我的数据集非常大(约100吨),我需要使用Spark on Thread来处理它。到目前为止,我已经使用PipeRDD在Spark上本地运行了这个工具。我唯一想不通的是如何将预先训练好的TF模型(checkfiles、tensorflow作为lib等)包含在内,使所有节点都可以访问它
我使用的约束条件是,我无法在集群的节点上安装新软件。如果不是这样,我相信这个问题已经解决了
是否有一种部署方法,比如fatjar,它包含所有这些信息。如果我能把它集装箱化,我相信它会奏效,但似乎没有明显的办法
我是否可以重写tensorflow模型,使其只接受一个字符串,对其进行分类并在一个.py文件中返回标签
目前没有回答
相关问题 更多 >
编程相关推荐