MapReduce:流式映射器如何知道哪些文件数据来自?

2024-10-02 16:23:55 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在学习MapReduce。我试图建立一个“连接”算法,从两个文件(包含要连接的两个数据集)中获取数据。你知道吗

为此,映射程序需要知道每一行来自哪个文件;这样,它就可以适当地标记它,以便reducer不会(例如)将一个数据集中的元素连接到同一数据集中的其他元素。你知道吗

更复杂的是,我使用的是Hadoop流媒体,映射器和还原器都是用Python编写的;我懂Java,但是Hadoop InputFormat和RecordReader类的文档非常模糊,我不知道如何进行流兼容拆分,以便将某种文件标识符与数据捆绑在一起。你知道吗

有谁能解释如何以我的Python程序可以理解的方式设置这个输入处理?你知道吗


Tags: 文件数据文档标记程序算法hadoop元素