Pyspark打印来自K的消息

2024-05-21 06:40:36 发布

您现在位置：Python中文网/ 问答频道 /正文

583

网友

男 | 程序猿一只，喜欢编程写python代码。

我建立了一个包含生产者和消费者的kafka系统，将json文件的行作为消息流传输。在

使用pyspark，我需要分析不同流媒体窗口的数据。为此，我需要查看一下pyspark传输的数据。。。我该怎么做？在

为了运行代码，我使用了Yannael's Docker容器。下面是我的python代码：

# Add dependencies and load modules
import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--conf spark.ui.port=4040 --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.0.0,com.datastax.spark:spark-cassandra-connector_2.11:2.0.0-M3 pyspark-shell'

from kafka import KafkaConsumer
from random import randint
from time import sleep

# Load modules and start SparkContext  
from pyspark import SparkContext, SparkConf
from pyspark.sql import SQLContext, Row
conf = SparkConf() \
    .setAppName("Streaming test") \
    .setMaster("local[2]") \
    .set("spark.cassandra.connection.host", "127.0.0.1")

try:
    sc.stop()
except:
    pass    

sc = SparkContext(conf=conf) 
sqlContext=SQLContext(sc)
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils

# Create streaming task
ssc = StreamingContext(sc, 0.60)
kafkaStream = KafkaUtils.createStream(ssc, "127.0.0.1:2181", "spark-streaming-consumer", {'test': 1})
ssc.start()

Tags： kafka and 数据代码 from import modules os

1条回答

网友

1楼 · 发布于 2024-05-21 06:40:36

您可以调用kafkaStream.pprint()，或者了解更多信息about structured streaming，您可以这样打印

query = kafkaStream \
    .writeStream \
    .outputMode("complete") \
    .format("console") \
    .start()

query.awaitTermination()

我看到您有cassandra端点，所以假设您正在编写Cassandra，您可以使用Kafka Connect，而不是为此编写Spark代码

Pyspark打印来自K的消息

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pyspark打印来自K的消息

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >