Pyspark将mmddyy转换为YYYYMMDD

2条回答

网友

1楼 · 编辑于 2024-09-27 23:27:14

我能够在不创建udf的情况下解决它，我确实在stack上引用了一个类似的post（pyspark substring and aggregation），它工作得非常完美。在

from pyspark.sql.functions import *
format = 'mmddyy'
col = unix_timestamp(df1['DATE_OPENED'], format).cast('timestamp')
df1 = df1.withColumn("DATE_OPENED", col)

df2 = df.withColumn('open_dt', df['DATE_OPENED'].substr(1, 11))

网友

2楼 · 编辑于 2024-09-27 23:27:14

这是可能的，不需要依赖一个缓慢的UDF。相反，通过指定正确的格式，用unix_timestamp解析数据。然后将该列转换为DateType，这将为您提供默认格式（yyyy-mm-dd）：

df.withColumn('DATE_OPENED', unix_timestamp('DATE_OPENED','mmddyy').cast(DateType()))

如果您有Spark 2.2+版本，还有一种更方便的方法，to_date：

^{pr2}$

编程相关推荐

将Java中的对象列表序列化为json
在同一Play Framework项目中同时使用Ebean和JPA的java
oop如何在整个Java项目中共享API密钥
java ADT Eclipse SDK故障未找到DDM
扫描程序中变量的递归Java输入值未应用于方法中的变量
java将空格转换为命令行类型的空格
JavaSpring，如何决定客户机应该使用哪个服务？
java致命异常：main（Android标准）
java编译错误是因为类型检查还是三元运算符？
java Sikuli+Webdriver:getting error x.png看起来像一个文件，但在磁盘上找不到。假设是文本

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pyspark将mmddyy转换为YYYYMMDD

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >