pyspark:timesteps的rdd操作

0, Alpha,-3.9, 4, 2001-02-01 08:00:00, 5, 20 0, Beta, -3.8, 3, 2001-02-01 08:15:00, 6, 21 1, Gamma,-3.7, 8, 2001-02-01 08:30:00, 7, 22 0, Alpha,-3.5, 4, 2001-02-01 08:45:00, 8, 23 0, Alpha,-3.9, 4, 2001-02-01 09:00:00, 8, 27 0, Gamma,-3.5, 5, 2001-02-01 09:15:00, 6, 21

1条回答

网友

1楼 · 发布于 2024-09-28 17:26:15

要按08:00:00-09:00:00（包括）之间的时间进行筛选，您只需确保此字符串的时间部分以08:或09:00:00开头，因此您的筛选函数可以是e[4].split()[1].startswith(('08:', '09:00:00'))。然后可以执行常规的RDD reduceByKey（）等操作

newrdd.filter(lambda e: e[4].split()[1].startswith(('08:', '09:00:00'))) \
      .map(lambda e: (e[1], int(e[5]))) \
      .reduceByKey(lambda x,y: x+y) \
      .collect()
#[(' Alpha', 21), (' Beta', 6), (' Gamma', 7)]

编程相关推荐

尝试连接到Red5服务器时出现java问题
java实现Runnable的类被认为是ExecutorServices的“Runnable任务”？
java struts2类中的多个@validation
java未能应用插件[class'org.gradle.api.plugins.scala.ScalaBasePlugin']：gradle v2。13
如何使用Java流仅收集长度最大的元素？
从spring引导应用程序连接到firestore的java引发空指针异常
java从SQLite插入和获取真实数据类型会为连续插入获取空值吗？
当存在未知数量的空格时，使用java替代正向查找
部署如何为当今的浏览器部署java小程序（小程序、嵌入、对象）？
@OneToMany和@ManyToOne@Formula之间的java双向关系返回null

相关问题更多 >

编程相关推荐

热门问题

热门文章

pyspark:timesteps的rdd操作

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >