Hadoop流式多行Inpu - 问答 - Python中文网

Hadoop流式多行Inpu

2024-09-30 05:23:00 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在将Dumbo用于一些Hadoop流作业。我有一堆JSON字典，每个字典都包含一篇文章（多行文本）和一些元数据。我知道Hadoop在给大文件时性能最好，所以我想把所有JSON字典合并到一个文件中。在

问题是，我不知道如何让Hadoop将每个字典/文章作为一个单独的值来读取，而不是在换行中拆分。如何告诉Hadoop使用自定义记录分隔符？或者我可以把所有的JSON字典放到一个列表数据结构中，让Hadoop读入它？在

或者编码字符串（base64？）会删除所有的新行，而普通的“读卡器”能够处理它吗？在

Tags：文件数据文本 hadoop json 数据结构编码列表

2条回答

网友

1楼 · 编辑于 2024-09-30 05:23:00

concatenated-json-mapreduce是一种自定义输入格式，记录读取器将根据左/右括号上的push/pop拆分JSON对象。在

它是用来处理流式JSON（而不是换行分隔的JSON），只要它是格式良好的JSON对象，使用\n而不是实际的新行，它就可以工作。在

网友

2楼 · 编辑于 2024-09-30 05:23:00

在连接JSON文件时，您只需将每个字典中的所有新行替换为spaec。Newline在JSON中除了作为空白字符外没有任何特殊的含义。在

相关问题更多 >

编程相关推荐

热门问题

热门文章