从PySp文件中正确读取类型

schema = StructType([ StructField('id', StringType(), True), StructField('name', StringType(), True), StructField('list', ArrayType(StringType()), True), StructField('att1', FloatType(), True), StructField('att2', FloatType(), True), StructField('att3', FloatType(), True), StructField('att4', FloatType(), True) ])

1条回答

网友

1楼 · 发布于 2024-09-19 21:00:55

这本书读得很好，只是不像你所期望的那样有效。Schema参数声明了是什么类型，以避免昂贵的模式推断，而不是如何转换数据。提供与声明的架构匹配的输入是您的责任。在

这也可以由数据源来处理（看一下spark-csv和inferSchema选项）。但它不能处理像数组这样的复杂类型。在

由于您的架构基本上是平面的，并且您知道类型，因此可以尝试如下操作：

df = rdd.toDF([f.name for f in schema.fields])

exprs = [
    # You should excluding casting
    # on other complex types as well
    col(f.name).cast(f.dataType) if f.dataType.typeName() != "array" 
    else col(f.name)
    for f in schema.fields
]

df.select(*exprs)

并使用字符串处理函数或UDF分别处理复杂类型。或者，由于您无论如何都是用Python读取数据的，所以只需在创建DF之前强制执行所需的类型。在

相关问题更多 >

编程相关推荐

热门问题

热门文章