Pyspark使用json对象读取json，其中包含json列表在转换为数据帧时更改一些格式

[ { "AccountId": "xxxx", "ResourceId": "yyyy", "ProductName": "zzzz", "Tags": [{"Name": "John Doe"}, {"Environment":"DEV"}] }, { "AccountId": "aaaa", "ResourceId": "bbbb", "ProductName": "cccc", "Tags": [{"Name": "Jane Doe"}, {"Environment":"DEV"}] }, { "AccountId": "iiii", "ResourceId": "jjjj", "ProductName": "kkkk", "Tags": [{"Environment":"QA"}] } ]

|---------------------|------------------|---------------------|---------------------| | AccountId | ResourceId | ProductName | Tags | |---------------------|------------------|---------------------|---------------------| | xxxx | yyyy | zzzz | [[JohnDoe,],[,DEV]] | |---------------------|------------------|---------------------|---------------------| | aaaa | bbbb | cccc | [[JaneDoe,],[,DEV]] | |---------------------|------------------|---------------------|---------------------| | iiii | jjjj | kkkk | [[,],[,QA]] | |---------------------|------------------|---------------------|---------------------|

1条回答

网友

1楼 · 发布于 2024-09-29 21:31:58

有一个函数只是将列转换为json，to_json

df = spark.read.option("header","true").option("inferSchema","true").json("test.json")
df.show(truncate=False)

df.withColumn('Tags', to_json('Tags')).show(truncate=False)

+    -+     -+     +                     -+
|AccountId|ProductName|ResourceId|Tags                                       |
+    -+     -+     +                     -+
|xxxx     |zzzz       |yyyy      |[{"Name":"John Doe"},{"Environment":"DEV"}]|
|aaaa     |cccc       |bbbb      |[{"Name":"Jane Doe"},{"Environment":"DEV"}]|
|iiii     |kkkk       |jjjj      |[{"Environment":"QA"}]                     |
+    -+     -+     +                     -+

相关问题更多 >

编程相关推荐

热门问题

热门文章