在Hadoop中使用Python代码处理整个文件(最好是Dumbo)

2024-09-30 01:19:23 发布

您现在位置:Python中文网/ 问答频道 /正文

这似乎是一个非常常见的用例,但在Hadoop中很难实现(WholeFileRecordReader类也有可能)。 小飞象还是猪有可能? 有人知道用Dumbo或Pig将整个文件作为地图任务处理的方法吗?在


Tags: 文件方法hadoop地图用例pigdumbowholefilerecordreader
2条回答

我假设你想有一个档案记录在案。如果没有,请在你的问题中更具体一些。在

我不知道有一个Pig存储加载器可以一次加载整个文件(在标准发行版中或在piggybank中)。我建议您编写自己的Pig custom loader,这相对比较容易。在

WholeFileRecordReader表示不拆分输入文件?如果是,请定义分割最小值。大小设置为非常大的值,mapreduce和Pig都会接受它。在

相关问题 更多 >

    热门问题