Dumbo(Python)/Hadoop意外输出

2024-09-30 05:17:10 发布

您现在位置:Python中文网/ 问答频道 /正文

我尝试使用dumbo(Python)/haddop执行以下代码 https://github.com/klbostee/dumbo/wiki/Short-tutorial#jobs-and-runners

我正确地遵循了教程,我已经完成了每一步,但是当我在hadoop环境中运行代码时,我得到的输出如下:

顺序/org.apache.hadoop.typedbytes.TypedBytesWritable/org.apache.hadoop.typedbytes.TypedBytesWritable,1965,qq,172.16.1.10,172.16.1.12,172.16.1.12,172.16.1.12,172.16.1.12,172.16.1.12,172.16.1.30

它应该返回带有连接计数器的IP地址列表。 为什么会出现这些字符?是编码问题吗?我怎么修?谢谢

另外,如果我尝试教程中的其他程序,我也会遇到同样的问题。在


Tags: 代码httpsorggithubcomhadoopapachewiki
1条回答
网友
1楼 · 发布于 2024-09-30 05:17:10

我自己回答。这个输出是Dumbo的序列化形式。没有错误。在

要将其转换为可读文本,只需使用follow命令即可(答案在教程中!我没看见)

dumbo cat ipcounts/part* -hadoop /usr/local/hadoop | sort -k2,2nr | head -n 5

相关问题 更多 >

    热门问题