有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

java在Hadoop中使用wget?

我有一个数据集(~31GB,扩展名为.gz的压缩文件),它存在于一个web位置上,我想在它上运行我的Hadoop程序。该程序是对Hadoop附带的原始WordCount示例的轻微修改。在我的例子中,Hadoop安装在远程机器上(我通过ssh连接到该机器,然后运行我的作业)。问题是我无法将这个大数据集传输到远程机器上的主目录(由于磁盘使用配额)。因此,我尝试搜索是否有方法使用wget获取数据集并直接将其传递到HDFS(而不保存在远程机器上的本地帐户),但没有成功。 这样的方式存在吗?还有什么其他建议可以让这一切顺利进行吗

我已经试过使用雅虎!虚拟机预配置了Hadoop,但速度太慢,而且由于数据集太大,内存不足


共 (1) 个答案

  1. # 1 楼答案

    在这里查看答案:putting a remote file into hadoop without copying it to local disk

    您可以通过管道将数据从wget传输到hdfs

    然而,您将遇到一个问题——gz是不可拆分的,因此您将无法在其上运行分布式map/reduce

    我建议您在本地下载该文件,解压缩它,然后通过管道将其导入,或者将其拆分为多个文件并加载到hdfs中