我有一个数据帧,它有一个Booked date(String)
和Movies count(Number)
。我需要根据预定日期的年份计算电影总数。我首先使用自定义项将预订日期转换为日期格式。你知道吗
import pyspark.sql.functions as F
from pyspark.sql.types import DateType
import datetime as datetime
function date_string(str){
return datetime.datetime.strptime(str, '%m/%d/%Y')
}
func = F.udf(date_string, DateType())
new_data = movies_data.withColumn('Date', func(F.col('Booked Date')))
日期转换成功。然后我使用groupby
按月份分组,并执行sum
功能,如:
new_data.groupBy(F.year('Date')).sum('Movies count').show()
我得到这个错误:
TypeError: strptime() argument 1 must be str, not None
我不知道怎么解决这个问题。任何帮助都将不胜感激。你知道吗
注意:
数据中没有null
值
目前没有回答
相关问题 更多 >
编程相关推荐