在Hadoop中使用Python代码处理整个文件（最好是Dumbo）

2条回答

网友

1楼 · 编辑于 2024-09-30 01:19:23

我假设你想有一个档案记录在案。如果没有，请在你的问题中更具体一些。在

我不知道有一个Pig存储加载器可以一次加载整个文件（在标准发行版中或在piggybank中）。我建议您编写自己的Pig custom loader，这相对比较容易。在

网友

2楼 · 编辑于 2024-09-30 01:19:23

WholeFileRecordReader表示不拆分输入文件？如果是，请定义分割最小值。大小设置为非常大的值，mapreduce和Pig都会接受它。在