如何将外部jar库导入Hortonworks中的ZEPPELIN?

2024-06-28 21:03:18 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个hdp2.5集群,我正在使用ZEPPELIN的%pyspark解释器来生成代码。在

我想使用一个在python、java和scala中帮助处理Spark中的时间序列分析的库,这里指定了:https://github.com/sryza/spark-timeseries

问题是我不知道如何导入并使用这个库到我的ZEPPELIN%Pypark解释器。在

首先,我下载了名为“sparkts-0.2.0-jar-with”的.jar文件-依赖关系.jar". 接下来,我将它保存在齐柏林工作的集群节点的/opt/目录中。在

然后,我尝试使用%dep,但它在我当前版本的HDP中被弃用,所以我在齐柏林飞艇“解释器”菜单中添加了一个依赖项,方法是:

enter image description here

我重启了翻译程序,试着用齐柏林飞艇笔记本:

%pyspark

import sparkts

但我有个错误:

^{pr2}$

所以我的问题是:如何导入并使用这个.jar文件在我的HDP集群中使用齐柏林进行时间序列分析?在

非常感谢你!在


Tags: 文件代码时间集群序列java解释器spark
1条回答
网友
1楼 · 发布于 2024-06-28 21:03:18

因为它是一个Python库,所以如果您在集群上运行zeppelin,使用YARN这样的资源管理器,作业可以在集群的任何节点上运行,并且使用Livy这样的解释器来分发作业,那么您需要在集群的每个节点上安装这个程序。如果这个库不能通过PIP使用,您可以通过运行设置.py(如果它有一个)或者作为最后的手段,把jar文件直接提供给pysparkshell,比如sosparkshelljars(但不是齐柏林飞艇的解决方案)

相关问题 更多 >