如何在pyspark中创建数据帧的副本？

2条回答

网友

1楼 · 编辑于 2024-05-22 02:42:02

在斯卡拉：

使用“X.schema.copy”创建新模式实例，而不修改旧模式
在每个返回Dataframe（“select”、“where”等）的Dataframe操作中，都会创建新的Dataframe，而不修改原始的Dataframe。原版可以反复使用。你的案子不需要复制。性能是单独的问题，可以使用“persist”。

网友

2楼 · 编辑于 2024-05-22 02:42:02

正如在对另一个问题的回答中所解释的，您可以对初始模式进行深度复制。然后我们可以修改该副本并使用它初始化新的DataFrame_X：

import pyspark.sql.functions as F
from pyspark.sql.types import LongType
import copy

X = spark.createDataFrame([[1,2], [3,4]], ['a', 'b'])
_schema = copy.deepcopy(X.schema)
_schema.add('id_col', LongType(), False) # modified inplace
_X = X.rdd.zipWithIndex().map(lambda l: list(l[0]) + [l[1]]).toDF(_schema)

现在让我们检查一下：

print('Schema of X: ' + str(X.schema))
print('Schema of _X: ' + str(_X.schema))

输出：

Schema of X: StructType(List(StructField(a,LongType,true),StructField(b,LongType,true)))
Schema of _X: StructType(List(StructField(a,LongType,true),
                  StructField(b,LongType,true),StructField(id_col,LongType,false)))

请注意，要复制DataFrame，只需使用_X = X。每当您使用withColumn添加一个新列时，对象不会就地更改，而是返回一个新副本。希望这有帮助！

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在pyspark中创建数据帧的副本？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >