如何切片直到最后一项形成新列？

+-------------------------------------------------------------------------------------------------+ |value | +-------------------------------------------------------------------------------------------------+ |datalake-performance/raw/bamboohr/bamboohr_custom_turnover_data/2020/12/10/11:15.csv | |datalake-performance/raw/gitlab/002429d9-908c-497b-96ba-67794b31f0cd | |datalake-performance/processed/bamboohr/employee/04-08-2020/16:23.csv | |datalake-performance/raw/zoom/user/year=2020/month=09/day=22/a329affc-b1f5-45d1-932a-fbb13d9873d6| +-------------------------------------------------------------------------------------------------+

3条回答

网友

1楼 · 编辑于 2024-07-05 10:29:03

您可以使用sparksql函数slice和size来实现切片。请注意，Spark SQL数组索引从1开始，而不是从0开始

df2 = df.selectExpr("slice(split(value, '/'), 4, size(split(value, '/')) - 4) newcol")

df2.show(truncate=False)
+                      -+
|newcol                                       |
+                      -+
|[bamboohr_custom_turnover_data, 2020, 12, 10]|
|[]                                           |
|[employee, 04-08-2020]                       |
|[user, year=2020, month=09, day=22]          |
+                      -+

网友

2楼 · 编辑于 2024-07-05 10:29:03

你可以试试这样的东西-

import pyspark.sql.functions as F

df_updated = df.withColumn("new value",df.select(F.split(df.value,"/")).rdd.flatMap(
            lambda x: x[3:-1]))

其他参考文件-here

网友

3楼 · 编辑于 2024-07-05 10:29:03

slice函数也可以接受负索引start，以便从末尾开始。您需要4个部分，忽略最后一个部分，因此从-5开始，取4：

from pyspark.sql.functions import col, split, slice

df = df.withColumn("newcol", slice(split(col("value"), "/"), -5, 4)) 
df.select("newcol").show(truncate=False)

#+                      -+
#|newcol                                       |
#+                      -+
#|[bamboohr_custom_turnover_data, 2020, 12, 10]|
#|[]                                           |
#|[processed, bamboohr, employee, 04-08-2020]  |
#|[user, year=2020, month=09, day=22]          |
#+                      -+

相关问题更多 >

编程相关推荐

热门问题

热门文章