嗨,我在笔记本里有这段代码,正在搜索python spark的代码:
mydataNoSQL.createOrReplaceTempView("mytable")
spark.sql("SELECT * from mytable")
return mydataNoSQL
def getsameData(df,spark):
result = spark.sql("select * from mytable where temeperature is not null")
return result.rdd.sample(False, 0.1).map(lambda row : (row.temperature))
我需要一个实例RDD,但我正在获取一个类'pyspark.RDD.PipelinedRDD'
任何帮助都会好起来的。
pyspark.rdd.PipelinedRDD
是RDD
的子类,它必须在RDD中定义所有API。即PipelinedRDD只是RDD
的特殊类型,它是在RDD
上运行映射函数时创建的。例如,请看下面的代码片段。
所以你应该把你的
pyspark.rdd.PipelinedRDD
当作代码中的RDD
。由于Python是动态类型语言,因此没有完全的casting支持。要强制将
pyspark.rdd.PipelinedRDD
转换为普通的RDD,可以在RDD上收集并将其并行化如果RDD的数据很大,则在RDD上运行
collect
可能会导致MemoryError
。相关问题 更多 >
编程相关推荐