我需要使用hadoop2.x在amazonemr上运行Python流式udf
根据文档,PIG从0.14版开始就与Hadoop2.x一起工作 http://pig.apache.org/docs/r0.12.0/udf.html#python-udfshttp://pig.apache.org/docs/r0.14.0/udf.html#python-udfs
我亲自尝试过Python流式udf在0.12上不起作用,基于0.14文档中缺少的注释,我认为它应该在这个版本中工作。在
看到Amazon EMR文档中支持的PIG版本,我觉得只有低于0.12的支持PIG http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/Pig_SupportedVersions.html
所以我的问题是,如果有人对如何“黑客攻击”或将Pig0.14部署到EMR集群有什么想法或经验?如果pythonudfs与hadoop2.x和pig0.14一起工作(想知道有问题的pig0.14安装是否值得)?在
最后,我解决了这个问题,只需在引导脚本中将pig0.14下载到所有机器上,并在~/.bashrc中通过我的pig 0.14位置覆盖pig_HOME,这对我很有效。(至少在我通过ssh连接到主机时使用pig0.14)
相关问题 更多 >
编程相关推荐