PipelinedRDD和普通的RDD有什么区别？

2024-10-01 15:28:58 发布

男 | 程序猿一只，喜欢编程写python代码。

现在我试着用下面的代码从hdfs加载数据，我试图使用函数“jsonParse”将值连接到普通csv，这样我就可以根据需要获得正常的字符串RDD，但似乎这个方法不起作用，当我试图打印一些记录时，它告诉我'data'变量是一个PipelinedRDD不可编辑，任何人都可以告诉我如何才能得到想要的'data'（普通rdd），谢谢：

def jsonParse(x):
    s=json.loads(x)
    print "ssssssssssss"+s['age']+","+s['sex']+","+s['xueya']+","+s['danguchun']+","+s['na']+","+s['k']+","+s['yaowu']
    return s['age']+","+s['sex']+","+s['xueya']+","+s['danguchun']+","+s['na']+","+s['k']+","+s['yaowu']

conf = SparkConf()
sc = SparkContext(conf=conf)
hc = HiveContext(sc)
#json=sc.textFile('hdfs://hacluster/new')
json=hc.sql("select * from default.test_yj_200 limit 1000").toJSON()

data=json.map(jsonParse)

Tags：数据代码 hc json age data conf hdfs

1条回答

网友

1楼 · 发布于 2024-10-01 15:28:58

管道drdd

PipelinedRDD操作被流水线化并发送到worker；代码从上到下执行。它是RDD的一个子类。在

RDD

表示可以并行处理的常量、分区元素集合。在

PipelinedRDD和普通的RDD有什么区别？

相关问题更多 >

编程相关推荐

热门问题

热门文章

PipelinedRDD和普通的RDD有什么区别？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >