pyspark中的大型数据帧生成

1条回答

网友

1楼 · 发布于 2024-06-26 02:24:41

您可以在循环中使用flatMap来创建指数级增长的行数：

rdd = spark.sparkContext.parallelize([(1,2,3,4,5,6,7,8,9,10)])

def f(t):    
    for c in range(0,10):        
        yield tuple((i+c) * 1664525 for i in t)

#Increase the size of this loop to create more data.
#The number of rows will be 10 ^ n
for _ in range(0, 2):
    rdd = rdd.flatMap(f)
    rdd = rdd.repartition(int(spark.conf.get('spark.sql.shuffle.partitions')))
    print(rdd.count())

#write result to parquet file
df = spark.createDataFrame(rdd)
df.write.parquet("mytestdata")

编程相关推荐

通过GWT JSNI传递Java对象时发生javascript错误
java Spring启动项目wildfly服务器失败
java如何进行会话来存储Id？
javajpa/hibernate如何通过带注释的外键映射元素集合
Java将字节[]转换为双[]，反之亦然
eclipse显示Java双值
java如何正确读取socket数据包
是否存在用于集合处理的Java库？
javacom。太阳jna。无法将指针强制转换为com。太阳jna。站台win32。温迪夫。LPARAM
java Eclipse插件开发。我可以在插件中使用已经存在的jar文件吗？

相关问题更多 >

编程相关推荐

热门问题

热门文章

pyspark中的大型数据帧生成

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >