火花读取.csv错误分析时间戳

1条回答

网友

1楼 · 发布于 2024-10-03 21:33:04

从^{}的文档中，默认的timestampFormat是：

yyyy-MM-dd'T'HH:mm:ss.SSSXXX适用于spark 2.2及更高版本
yyyy-MM-dd'T'HH:mm:ss.SSSZZ代表spark version 2.1
None适用于spark 2.0 which means trying to parse times and date by ^{} and ^{}

数据的主要问题是，在一秒钟内有3个额外的值。因此对于这些数据，您需要使用timestampFormat="yyyy-MM-dd'T'hh:mm:ss:SSSSSSZZ"

data = spark.read.csv(
    'presence.csv',
    header='true', 
    inferSchema= 'true',  
    sep=",",
    timestampFormat="yyyy-MM-dd'T'hh:mm:ss:SSSSSSZZ"
)

data.show(truncate=False)
#+           -+   +           +     +    +     +
#|TIME                   |RESULT|PARENTLOCALIZATIONCODE|PARENTNAME|SIGFOXID|STATUS    |
#+           -+   +           +     +    +     +
#|2018-12-09 19:06:14.546|OK    |A                     |A         |19A9BC  |OFF_PERIOD|
#+           -+   +           +     +    +     +

但正如您在这里看到的，TIME列正在转换为本地时间（在我的系统上是GMT-4）。在

如果这不是您想要的，“修复”取决于您的spark版本，并在Spark Strutured Streaming automatically converts timestamp to local time上的答案中详细说明。在

如果应用特定于版本的“fix”，您将看到以下结果：

^{pr2}$

参考文献：

相关问题更多 >

编程相关推荐

热门问题

热门文章

火花读取.csv错误分析时间戳

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >