删除PySpark dataframe列中的最后几个字符

df = df.withColumn("year", substring(col("name"),-4,4)) df.show() +--------------+----+ | name|year| +--------------+----+ | rose_2012|2012| | jasmine_2013|2013| | lily_2014|2014| | daffodil_2017|2017| |sunflower_2016|2016| +--------------+----+

3条回答

网友

1楼 · 编辑于 2024-06-01 13:35:52

您可以使用split函数。此代码执行您想要的操作：

import pyspark.sql.functions as f

newDF = df.withColumn("year", f.split(df['name'], '\_')[1]).\
           withColumn("flower", f.split(df['name'], '\_')[0])

newDF.show()

+--------------+----+---------+
|          name|year|   flower|
+--------------+----+---------+
|     rose_2012|2012|     rose|
|  jasmine_2013|2013|  jasmine|
|     lily_2014|2014|     lily|
| daffodil_2017|2017| daffodil|
|sunflower_2016|2016|sunflower|
+--------------+----+---------+

网友

2楼 · 编辑于 2024-06-01 13:35:52

可以使用expr函数

>>> from pyspark.sql.functions import substring, length, col, expr
>>> df = df.withColumn("flower",expr("substring(name, 1, length(name)-5)"))
>>> df.show()
+--------------+----+---------+
|          name|year|   flower|
+--------------+----+---------+
|     rose_2012|2012|     rose|
|  jasmine_2013|2013|  jasmine|
|     lily_2014|2014|     lily|
| daffodil_2017|2017| daffodil|
|sunflower_2016|2016|sunflower|
+--------------+----+---------+

网友

3楼 · 编辑于 2024-06-01 13:35:52

在这种情况下，因为我们想提取字母字符，所以REGEX也可以工作。

from pyspark.sql.functions import regexp_extract 
df = df.withColumn("flower",regexp_extract(df['name'], '[a-zA-Z]+',0))
df.show()
+--------------+----+---------+
|          name|year|   flower|
+--------------+----+---------+
|     rose_2012|2012|     rose|
|  jasmine_2013|2013|  jasmine|
|     lily_2014|2014|     lily|
| daffodil_2017|2017| daffodil|
|sunflower_2016|2016|sunflower|
+--------------+----+---------+

相关问题更多 >

编程相关推荐

热门问题

热门文章

删除PySpark dataframe列中的最后几个字符

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >