Hadoop流式多行Inpu

2024-09-30 05:23:00 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在将Dumbo用于一些Hadoop流作业。我有一堆JSON字典,每个字典都包含一篇文章(多行文本)和一些元数据。我知道Hadoop在给大文件时性能最好,所以我想把所有JSON字典合并到一个文件中。在

问题是,我不知道如何让Hadoop将每个字典/文章作为一个单独的值来读取,而不是在换行中拆分。如何告诉Hadoop使用自定义记录分隔符?或者我可以把所有的JSON字典放到一个列表数据结构中,让Hadoop读入它?在

或者编码字符串(base64?)会删除所有的新行,而普通的“读卡器”能够处理它吗?在


Tags: 文件数据文本hadoopjson数据结构编码列表
2条回答

concatenated-json-mapreduce是一种自定义输入格式,记录读取器将根据左/右括号上的push/pop拆分JSON对象。在

它是用来处理流式JSON(而不是换行分隔的JSON),只要它是格式良好的JSON对象,使用\n而不是实际的新行,它就可以工作。在

在连接JSON文件时,您只需将每个字典中的所有新行替换为spaec。Newline在JSON中除了作为空白字符外没有任何特殊的含义。在

相关问题 更多 >

    热门问题