Pypark Kafka直接流式更新Zookeeper/Kafka Offs

offsetRanges = [] def storeOffsetRanges(rdd): global offsetRanges offsetRanges = rdd.offsetRanges() return rdd def printOffsetRanges(rdd): for o in offsetRanges: print "%s %s %s %s" % (o.topic, o.partition, o.fromOffset, o.untilOffset) directKafkaStream\ .transform(storeOffsetRanges)\ .foreachRDD(printOffsetRanges)

2条回答

网友

1楼 · 编辑于 2024-09-24 02:20:45

我也遇到了类似的问题。你是对的，使用directStream意味着直接使用kafka底层API，它没有更新reader offset。这里有几个scala/java的例子，但python没有。但是你自己做很容易，你需要做的是：

从开头的偏移量读取
保存末端的偏移

例如，我通过执行以下操作来保存redis中每个分区的偏移量：

stream.foreachRDD(lambda rdd: save_offset(rdd))
def save_offset(rdd):
  ranges = rdd.offsetRanges()
  for rng in ranges:
     rng.untilOffset # save offset somewhere

然后在开始时，您可以使用：

^{pr2}$

对于一些使用zk跟踪偏移的工具，最好在zookeeper中保存偏移量。本页： https://community.hortonworks.com/articles/81357/manually-resetting-offset-for-a-kafka-topic.html 描述如何设置偏移量，zk节点基本上是： /使用者/[使用者名称]/offset/[主题名称]/[分区id] 因为我们使用的是directStream，所以你必须编一个消费者名称。在

网友

2楼 · 编辑于 2024-09-24 02:20:45

我编写了一些函数来保存和读取pythonkazoo库中的Kafka偏移量。在

获取Kazoo客户端singleton的第一个函数：

ZOOKEEPER_SERVERS = "127.0.0.1:2181"

def get_zookeeper_instance():
    from kazoo.client import KazooClient

    if 'KazooSingletonInstance' not in globals():
        globals()['KazooSingletonInstance'] = KazooClient(ZOOKEEPER_SERVERS)
        globals()['KazooSingletonInstance'].start()
    return globals()['KazooSingletonInstance']

然后函数读取和写入偏移量：

^{pr2}$

然后在开始流式传输之前，可以从zookeeper读取偏移量并将其传递给createDirectStream 对于fromOffsets参数：

from pyspark import SparkContext
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils


def main(brokers="127.0.0.1:9092", topics=['test1', 'test2']):
    sc = SparkContext(appName="PythonStreamingSaveOffsets")
    ssc = StreamingContext(sc, 2)

    zk = get_zookeeper_instance()
    from_offsets = read_offsets(zk, topics)

    directKafkaStream = KafkaUtils.createDirectStream(
        ssc, topics, {"metadata.broker.list": brokers},
        fromOffsets=from_offsets)

    directKafkaStream.foreachRDD(save_offsets)


if __name__ == "__main__":
    main()

问题

相关问题更多 >

编程相关推荐

热门问题

热门文章