在Hadoop中使用Python代码处理整个文件(最好是Dumbo)这似乎是一个非常常见的用例,但在Hadoop中很难实现(WholeFileRecordReader类也有可能)。 小飞象还是猪有可能? 有人知道用Dumbo或Pig将整个文件作为地图任务处理的方法吗? ...2024-09-30 已阅读: n次