如何删除数组pyspark结构中的重复元素

1条回答

网友

1楼 · 发布于 2024-09-28 22:24:01

您可以将数据帧转换为RDD，然后再转换回数据帧。重新创建dataframe时，可以提供列名唯一的架构

我使用了一个简化示例，其中fieldnamefield2不是唯一的：

df = ...
df.printSchema()
#root
# |  INFO_CSQ: array (nullable = true)
# |    |  element: struct (containsNull = true)
# |    |    |  field1: string (nullable = true)
# |    |    |  field2: string (nullable = true)
# |    |    |  field2: string (nullable = true)

import copy
schema_with_renames = copy.deepcopy(df.schema)
seen_fields = {}
#iterate over all fields and add a suffix where necessary
for f in schema_with_renames[0].dataType.elementType.fields:
    name = f.name
    suffix = ""
    if name in seen_fields:
        suffix = seen_fields[name] + 1
        seen_fields[name] = suffix
    else:
        seen_fields[name] = 0
    f.name = f.name + str(suffix)

df2 = spark.createDataFrame(df.rdd, schema_with_renames)
df2.printSchema()
#root
# |  INFO_CSQ: array (nullable = true)
# |    |  element: struct (containsNull = true)
# |    |    |  field1: string (nullable = true)
# |    |    |  field2: string (nullable = true)
# |    |    |  field21: string (nullable = true)

现在，您可以删除或忽略重命名的字段field21

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何删除数组pyspark结构中的重复元素

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >