希望使用pysoark将databricks笔记本中的嵌套json转换为tsv
下面是可以更改列的json结构
{"tables":[{"name":"Result","columns":[{"name":"JobTime","type":"datetime"},{"name":"Status","type":"string"}]
,"rows":[
["2020-04-19T13:45:12.528Z","Failed"]
,["2020-04-19T14:05:40.098Z","Failed"]
,["2020-04-19T13:46:31.655Z","Failed"]
,["2020-04-19T14:01:16.275Z","Failed"],
["2020-04-19T14:03:16.073Z","Failed"],
["2020-04-19T14:01:16.672Z","Failed"],
["2020-04-19T14:02:13.958Z","Failed"],
["2020-04-19T14:04:41.099Z","Failed"],
["2020-04-19T14:04:41.16Z","Failed"],
["2020-04-19T14:05:14.462Z","Failed"]
]}
]}
我是databricks的新手请帮忙
处理这个问题有两种方法。您可以使用
json
库(或等效库)在python
中进行一些预处理,或者直接加载到pyspark
中并进行如下操作:分解取
rows
,即ArrayType
,并将其拆分为实际行。 然后,您可以通过点或切片表示法进行子选择最后,您希望使用自定义分隔符(
\t
)另存为CSV。因此:注意:您可能需要手动控制类型,例如将
JobTime
转换为TimestampType
,但这由您决定。 希望这有帮助相关问题 更多 >
编程相关推荐