Pyspark映射正则表达式

原始输出示例

预期输出示例

+-----------------------------+-----------------------------+ |message |status| +-----------------------------+-----------------------------+ |GDF2009 | GDF |GDF2014 | GDF |ADS/set | ADS |ADS-set | ADS |XSQXQXQSDZADAA5454546a45a4-FI| FI |dadaccpjpifjpsjfefspolamml-FI| FI |dqdazdaapijiejoajojp565656-RH| RH |kijipiadoa | null or ??

所以第4行用dict映射，另一行用regex映射。未映射为空或？？谢谢,

1条回答

网友

1楼 · 发布于 2024-09-28 05:20:33

您可以使用contains函数实现它：

from pyspark.sql.types import StringType

df = spark.createDataFrame(
    ["GDF2009", "GDF2014", "ADS-set", "ADS-set", "XSQXQXQSDZADAA5454546a45a4-FI", "dadaccpjpifjpsjfefspolamml-FI",
     "dqdazdaapijiejoajojp565656-RH", "kijipiadoa"], StringType()).toDF("message")
df.show()

names = ("GDF", "ADS", "FI", "RH")

def c(col, names):
    return [f.when(f.col(col).contains(i), i).otherwise("") for i in names]

df.select("message", f.concat_ws("", f.array_remove(f.array(*c("message", names)), "")).alias("status")).show()

输出：

+          +
|             message|
+          +
|             GDF2009|
|             GDF2014|
|             ADS-set|
|             ADS-set|
|XSQXQXQSDZADAA545...|
|dadaccpjpifjpsjfe...|
|dqdazdaapijiejoaj...|
|          kijipiadoa|
+          +

+          +   +
|             message|status|
+          +   +
|             GDF2009|   GDF|
|             GDF2014|   GDF|
|             ADS-set|   ADS|
|             ADS-set|   ADS|
|XSQXQXQSDZADAA545...|    FI|
|dadaccpjpifjpsjfe...|    FI|
|dqdazdaapijiejoaj...|    RH|
|          kijipiadoa|      |
+          +   +

原始输出示例

预期输出示例

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pyspark映射正则表达式

原始输出示例

预期输出示例

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >