根据其他列上的where条件在Pyspark数据帧中添加新列

+------------+-------------+--------------------+ |package_id | location | package_scan_code | +------------+-------------+--------------------+ |123 | Denver |05 | |123 | LosAngeles |03 | |123 | Dallas |09 | |123 | Vail |02 | |456 | Jacksonville|05 | |456 | Nashville |09 | |456 | Memphis |03 |

2条回答

网友

1楼 · 编辑于 2024-10-06 19:24:19

不管数据帧中的每个package_id发生package_scan_code=03多少次，此代码都应该可以工作。我又添加了一个(123,'LosAngeles','03')来演示-

步骤1:创建数据帧

values = [(123,'Denver','05'),(123,'LosAngeles','03'),(123,'Dallas','09'),(123,'Vail','02'),(123,'LosAngeles','03'),
          (456,'Jacksonville','05'),(456,'Nashville','09'),(456,'Memphis','03')]
df = sqlContext.createDataFrame(values,['package_id','location','package_scan_code'])

第2步：创建package_id和location的字典。在

^{pr2}$

第3步：创建列，映射字典。在

from pyspark.sql.functions import col, create_map, lit
from itertools import chain
mapping_expr = create_map([lit(x) for x in chain(*dict_location_scan_code.items())])
df = df.withColumn('origin', mapping_expr.getItem(col('package_id')))
df.show()
+     +      +        -+     +
|package_id|    location|package_scan_code|    origin|
+     +      +        -+     +
|       123|      Denver|               05|LosAngeles|
|       123|  LosAngeles|               03|LosAngeles|
|       123|      Dallas|               09|LosAngeles|
|       123|        Vail|               02|LosAngeles|
|       123|  LosAngeles|               03|LosAngeles|
|       456|Jacksonville|               05|   Memphis|
|       456|   Nashville|               09|   Memphis|
|       456|     Memphis|               03|   Memphis|
+     +      +        -+     +

网友

2楼 · 编辑于 2024-10-06 19:24:19

按package_scan_code == '03'筛选数据帧，然后与原始数据帧连接：

(df.filter(df.package_scan_code == '03')
   .selectExpr('package_id', 'location as origin')
   .join(df, ['package_id'], how='right')
   .show())
+     +     +      +        -+
|package_id|    origin|    location|package_scan_code|
+     +     +      +        -+
|       123|LosAngeles|      Denver|               05|
|       123|LosAngeles|  LosAngeles|               03|
|       123|LosAngeles|      Dallas|               09|
|       123|LosAngeles|        Vail|               02|
|       456|   Memphis|Jacksonville|               05|
|       456|   Memphis|   Nashville|               09|
|       456|   Memphis|     Memphis|               03|
+     +     +      +        -+

注意：这假设您最多有一个package_scan_code等于03，否则逻辑将不正确，您需要重新考虑如何定义origin。在

相关问题更多 >

编程相关推荐

热门问题

热门文章