如何在PySpark中将无模式json列转换为dictionary、json或其他datafram

+----+---+-------------------------------------------------------------------+ |ID | EntityID | Changes | +----+---+-------------------------------------------------------------------+ |1 |2 |{"Col1" :val1 ; "Col2":val2 ; "Col12" : val12} | |2 |3 |{"Col7" :val7 ; "Col12":val12;"Col19":val19 ;"Col15":val15} | |3 |3 |{"Col1" :val1 ; col2:val2; .... ;"Col15":val15} | +----------------------------------------------------------------------------|

1条回答

网友

1楼 · 发布于 2024-10-01 02:36:04

在这里，我找到了一种方法来做到这一点。首先，需要检查Json（我有这样的{“col1”：10，“col2”：2020-04-01 16:55:12} 因此pyspark.sql.functions.from_json无法将json字符串映射到所需的模式。将Col2改为“2020-04-01 16:55:12”解决了这个问题

#F is  pyspark.sql.functions
#schm in my json Schema sth like  
schm = StructType([
StructField("col1", LongType(), True),
StructField("col2", StringType(), True)])      
df.select(F.from_json(F.col("changes"),
schm
).alias("jsn")).select( 
"jsn.Col1","jsn.Col2").show()

相关问题更多 >

编程相关推荐

热门问题

热门文章