在CDH3上编写HBase MapReduce的最简单的非java方法?

2024-09-30 05:15:29 发布

您现在位置:Python中文网/ 问答频道 /正文

我已经为此工作了很长一段时间了,我感到非常疲惫;我希望?]来自社区的见解可能会让我的宠物项目重新启动,这样我就可以不再自责了。我使用的是ClouderaCDH3、HBase.89和Hadoop.20。在

我有一个Python/Django应用程序,它使用Thrift接口将数据写入单个HBase表中,效果非常好。现在我想把它映射/缩减成更多的HBase表。在

显而易见的答案是Dumbo或Apache PIG,但是对于PIG,hbasesestorage适配器支持还不适用于我的版本(PIG能够加载类和定义,但是在“Map”步骤就冻结了,抱怨“输入拆分”;PIG邮件列表显示pig0.8中已经修复了这一问题,它与CDH3 Hadoop不兼容,所以我必须使用所有东西的边缘版本。我找不到任何关于如何让Dumbo使用HBaseStorage作为数据接收器的信息。在

我不在乎它是Python、Ruby、Scala、Clojure、Jython、JRuby甚至PHP,我只是不想写Java(因为很多原因,大多数原因都是因为每次我必须将Int()转换为IntWritable()时都会有一种下沉的感觉)。在

在过去的4周里,我已经尝试了所有我能找到的用其他语言编写HBase Map/Reduce作业的解决方案和示例,但似乎一切都过时了或不完整。拜托,堆栈溢出,把我从我自己的设备里救出来!在


Tags: 数据项目django版本应用程序宠物map原因
1条回答
网友
1楼 · 发布于 2024-09-30 05:15:29

这不是确切的答案,但这是我得到的最接近的答案

我问过我irc.freenode.net昨天,Cloudera的一名员工回应道。 我对Pig的“输入分裂”问题是针对pig0.7的,pig0.8将与Cloudera CDH3 Beta 4捆绑在一起(没有ETA)。因此,我要做的(使用HBase表作为sink和source轻松编写M/R作业)将在它们的下一个版本中实现。此外,hbasesestorage类似乎也将得到改进,以帮助从Jython>任何JVM语言进行读/写操作,从而使Jython、JRuby、Scala和Clojure都更加可行。在

因此,这个问题的答案是“等待CDH3 Beta 4”,或者如果你不耐烦,“下载最新版本的Pig并祈祷它能与你的HBase兼容”

相关问题 更多 >

    热门问题