为什么pyspark中两种不同的数据处理方式会产生不同的结果？

#1st way columns = df.first() new_df = None for i in range(0, len(columns)): column = df.sample(withReplacement=True, fraction=1.0).map(lambda row: row[i]).zipWithIndex().map(lambda e: (e[1], [e[0]])) if new_df is None: new_df = column else: new_df = new_df.join(column) new_df = new_df.map(lambda e: (e[0], e[1][0] + e[1][1])) new_df = new_df.map(lambda e: e[1]) print new_df.collect()

#2nd way new_df = df.sample(withReplacement=True, fraction=1.0).map(lambda row: row[0]).zipWithIndex().map(lambda e: (e[1], [e[0]])) new_df2 = df.sample(withReplacement=True, fraction=1.0).map(lambda row: row[1]).zipWithIndex().map(lambda e: (e[1], [e[0]])) new_df = new_df.join(new_df2) new_df = new_df.map(lambda e: (e[0], e[1][0] + e[1][1])) print new_df.collect()

1条回答

网友

1楼 · 发布于 2024-09-30 12:15:45

这与Spark如何执行代码有关。在第一个示例中，尝试将此print语句放入代码中：

for i in range(0, len(columns)):
    if new_df:
        print(new_df.take(1))

由于代码是延迟执行的for这样的循环将不起作用，因为Spark实际上只执行最后一个循环。因此，当您为第二列启动for循环时，您已经得到了new_df的值，该值等于第二个for循环的输出。你知道吗

你必须使用你在第二个例子中使用的方法。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章