在pysp中将RDD保存为序列文件

2条回答

网友

1楼 · 编辑于 2024-09-26 22:49:26

要写入序列文件，需要Hadoop API格式的数据。

字符串为文本
Int作为IntWritable

在Python中：

data = [(1, ""),(1, "a"),(2, "bcdf")]
sc.parallelize(data).saveAsNewAPIHadoopFile(path,"org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat","org.apache.hadoop.io.IntWritable","org.apache.hadoop.io.Text")

网友

2楼 · 编辑于 2024-09-26 22:49:26

序列文件用于存储键值对，因此不能简单地存储RDD[String]。根据你的数据，我猜你在寻找这样的东西：

rdd = sc.parallelize([
    "2,Fitness", "3,Footwear", "4,Apparel"
])
rdd.map(lambda x: tuple(x.split(",", 1))).saveAsSequenceFile("testSeq")

如果要保留整个字符串，请使用None键：

rdd.map(lambda x: (None, x)).saveAsSequenceFile("testSeqNone")

编程相关推荐

java为什么在ng构建之后使用404？
java Maven原型“quickstart”无法扩展其POM
java Arduino端口卡在满功率状态
java如何确保在参数化构造函数失败时不调用默认构造函数？
java检测Blackberry中的切换失败
java如何将安卓库（作为Angle）链接到Eclipse项目？
java压缩图片，但获取“未知压缩方法”
java无法对应该初始化的模拟实例进行测试
将现有eclipse项目导出到war文件时，java“模块名无效”
java如何防止AppletClassLoader在查找类/其他资源时击中服务器？

相关问题更多 >

编程相关推荐

热门问题

热门文章

在pysp中将RDD保存为序列文件

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >