我有一个hdp2.5集群,我正在使用ZEPPELIN的%pyspark解释器来生成代码。在
我想使用一个在python、java和scala中帮助处理Spark中的时间序列分析的库,这里指定了:https://github.com/sryza/spark-timeseries
问题是我不知道如何导入并使用这个库到我的ZEPPELIN%Pypark解释器。在
首先,我下载了名为“sparkts-0.2.0-jar-with”的.jar文件-依赖关系.jar". 接下来,我将它保存在齐柏林工作的集群节点的/opt/目录中。在
然后,我尝试使用%dep,但它在我当前版本的HDP中被弃用,所以我在齐柏林飞艇“解释器”菜单中添加了一个依赖项,方法是:
我重启了翻译程序,试着用齐柏林飞艇笔记本:
%pyspark
import sparkts
但我有个错误:
^{pr2}$所以我的问题是:如何导入并使用这个.jar文件在我的HDP集群中使用齐柏林进行时间序列分析?在
非常感谢你!在
因为它是一个Python库,所以如果您在集群上运行zeppelin,使用YARN这样的资源管理器,作业可以在集群的任何节点上运行,并且使用Livy这样的解释器来分发作业,那么您需要在集群的每个节点上安装这个程序。如果这个库不能通过PIP使用,您可以通过运行设置.py(如果它有一个)或者作为最后的手段,把jar文件直接提供给pysparkshell,比如sosparkshelljars(但不是齐柏林飞艇的解决方案)
相关问题 更多 >
编程相关推荐