当使用hbase作为数据源时，spark是否使用hbase键的排序顺序

{ "userid1-1428364800" : { "columnFamily1" : { "val" : "1" } } } "userid1-1428364803" : { "columnFamily1" : { "val" : "2" } } } "userid2-1428364812" : { "columnFamily1" : { "val" : "abc" } } } }

import sys current_user_data = [] last_userid = None for line in sys.stdin: k, v = line.split('\t') userid, timestamp = k.split('-') if userid != last_userid and current_user_data: print processUserData(last_userid, current_user_data) last_userid = userid current_user_data = [(timestamp, v)] else: current_user_data.append((timestamp, v))

1条回答

网友

1楼 · 发布于 2024-09-27 07:34:47

我不太熟悉从HBase获取数据的保证，但如果我理解正确，我可以用普通的Spark来回答。在

你有一些RDD[X]。据Spark所知，其中的X是完全无序的。但是您有一些外部知识，并且可以保证数据实际上是按X的某个字段分组的（甚至可能按另一个字段排序）。在

在这种情况下，您可以使用mapPartitions来做与hadoop流媒体几乎相同的事情。这使您可以迭代一个分区中的所有记录，因此可以查找具有相同键的记录块。在

val myRDD: RDD[X] = ...
val groupedData: RDD[Seq[X]] = myRdd.mapPartitions { itr =>
  var currentUserData = new scala.collection.mutable.ArrayBuffer[X]()
  var currentUser: X = null
  //itr is an iterator over *all* the records in one partition
  itr.flatMap { x => 
    if (currentUser != null && x.userId == currentUser.userId) {
      // same user as before   add the data to our list
      currentUserData += x
      None
    } else {
      // its a new user   return all the data for the old user, and make
      // another buffer for the new user
      val userDataGrouped = currentUserData
      currentUserData = new scala.collection.mutable.ArrayBuffer[X]()
      currentUserData += x
      currentUser = x
      Some(userDataGrouped)
    }
  }
}
// now groupedRDD has all the data for one user grouped together, and we didn't
// need to do an expensive shuffle.  Also, the above transformation is lazy, so
// we don't necessarily even store all that data in memory   we could still
// do more filtering on the fly, eg:
val usersWithLotsOfData = groupedRDD.filter{ userData => userData.size > 10 }

我知道你想用python抱歉，我想如果我用Scala写的话，这个例子更可能是正确的。我认为类型注释使含义更清楚，但这可能是Scala的偏见。。。:). 不管怎样，希望你能理解发生了什么并翻译它。（不要太担心flatMap&；Some&；None，如果你理解了这个想法，可能就不重要了…）

相关问题更多 >

编程相关推荐

热门问题

热门文章