使用pyspark从JSON DF数组中删除选择性JSON

def drop_dev_id(jsonResponse,dict_keys): try: data = json.loads(jsonResponse) i = 0 n = len(data['iot_station']) while (i < n): if data['iot_station'][i]["dev_id"] not in dict_keys: data['iot_station'].pop(i) n -= 1 else: i += 1 return data except Exception as e: print('Exception --> ' + str(e)) def drop_dev_id_udf(dict_keys): return udf(lambda row: drop_dev_id(row,dict_keys), StringType()) df2 = df.select('value',drop_dev_id_udf(dict_keys)('value')).select('<lambda>(value)') df2:pyspark.sql.dataframe.DataFrame <lambda>(value):string

{ "iot_station": [ { "dev_id": 100010100, "device1": dev_val1, "device2": "dev_val2", "device3": dev_val3, "device4": "dev_val4", "stationid": [ { "id": id_val, "idrs": idrs_val, "idrq": "idrq_val", "idrx": "idrx_val" } ], "geospat": { "id": id_val, "idrs": idrs_val, "idrq": "idrq_val", "idrx": "idrx_val" } }, { "dev_id": 200020200, "device1": dev_val1, "device2": "dev_val2", "device3": dev_val3, "device4": "dev_val4", "stationid": [ { "id": id_val, "idrs": idrs_val, "idrq": "idrq_val", "idrx": "idrx_val" } ], "geospat": { "id": id_val, "idrs": idrs_val, "idrq": "idrq_val", "idrx": "idrx_val" } }, { "dev_id": 300030300, "device1": dev_val1, "device2": "dev_val2", "device3": dev_val3, "device4": "dev_val4", "stationid": [ { "id": id_val, "idrs": idrs_val, "idrq": "idrq_val", "idrx": "idrx_val" } ], "geospat": { "id": id_val, "idrs": idrs_val, "idrq": "idrq_val", "idrx": "idrx_val" } } ] }

{ "iot_station": [ { "dev_id": 200020200, "device1": dev_val1, "device2": "dev_val2", "device3": dev_val3, "device4": "dev_val4", "stationid": [ { "id": id_val, "idrs": idrs_val, "idrq": "idrq_val", "idrx": "idrx_val" } ], "geospat": { "id": id_val, "idrs": idrs_val, "idrq": "idrq_val", "idrx": "idrx_val" } }, { "dev_id": 300030300, "device1": dev_val1, "device2": "dev_val2", "device3": dev_val3, "device4": "dev_val4", "stationid": [ { "id": id_val, "idrs": idrs_val, "idrq": "idrq_val", "idrx": "idrx_val" } ], "geospat": { "id": id_val, "idrs": idrs_val, "idrq": "idrq_val", "idrx": "idrx_val" } } ] }

1条回答

网友

1楼 · 发布于 2024-09-30 18:26:03

你不需要UDF来实现你想要在这里实现的目标。只需将其作为普通JSON而不是文本加载，并使用^{}函数过滤数组列iot_station：

from pyspark.sql import functions as F


df = spark.read.json("path/iot-sensor.json", multiLine=True)

device_id_list = [str(i) for i in [200020200, 300030300]]

df1 = df.withColumn(
    "iot_station",
    F.expr(f"""
        filter(
            iot_station, 
            x -> x.dev_id in ({','.join(device_id_list)})
        )
    """)
)

# check filtered json
df1.select(F.col("iot_station").getItem("dev_id").alias("dev_id")).show(truncate=False)

#+           +
#|dev_id                |
#+           +
#|[200020200, 300030300]|
#+           +

相关问题更多 >

编程相关推荐

热门问题

热门文章