Pig//Spark jobs看不到Python模块

2024-05-03 15:28:36 发布

您现在位置:Python中文网/ 问答频道 /正文

我的hadoop集群有一个反复出现的问题,在这个问题中,正常运行的代码有时会停止看到位于正确位置的python模块。我在找可能面临同样问题的人的建议

当我第一次开始编程,一个代码停止工作时,我在这里问了一个问题,有人告诉我去睡觉,明天早上它应该会工作,或者其他一些“你是个傻瓜,你一定改变了什么”之类的评论

我运行了几次代码,它的工作,我去睡觉,早上我试图再次运行它,但它失败了。有时我用CTRL+C杀死作业,有时我用CTRL+Z。但这只会占用资源,并且不会导致除此之外的任何其他问题—代码仍在运行在代码运行之后,我还没有看到这个问题。这通常发生在第二天早上,当我在10个小时前离开的时候,在代码工作之后开始工作。重启集群通常可以解决这个问题

我目前正在检查集群是否因为某种原因而重新启动,或者它的某个部分是否出现故障,但到目前为止,ambari屏幕显示的都是绿色的。我不确定是否有一些自动维护或是一些已知的会把事情搞砸的东西

我还在读大象书,抱歉,如果这个主题在XXXX页上有明确的说明,我只是还没到那一页

我查看了所有的错误日志,但唯一有意义的是在stderr中:

  File "/data5/hadoop/yarn/local/usercache/melvyn/appcache/application_1470668235545_0029/container_e80_1470668235545_0029_01_000002/format_text.py", line 3, in <module>

    from formatting_functions import *

ImportError: No module named formatting_functions

Tags: 模块代码hadoop编程作业评论集群资源
1条回答
网友
1楼 · 发布于 2024-05-03 15:28:36

所以我们解决了问题。这个问题对我们的组织来说是特别的。我们已经安装了所有的数据节点nfs。有时节点会出现故障,必须有人将其恢复并重新安装

我们的脚本指定了到库的路径,如:'

    pig -Dmapred.child.env="PYTHONPATH=$path_to_mnt$hdfs_library_path" ...

所以pig找不到库,因为$path\u to\u mnt对于其中一个节点无效

相关问题 更多 >