我该如何阅读由Spark编写的PySpark拼花？

2条回答

网友

1楼 · 编辑于 2024-05-20 10:45:31

您可以使用Spark会话的parquet格式读取拼花文件。像这样：

df = spark.read.parquet("swift2d://xxxx.keystone/commentClusters.parquet")

不过，parquet和load函数之间没有区别。可能是由于load无法推断文件中数据的架构（例如，某些数据类型不可由load识别或特定于parquet）。

网友

2楼 · 编辑于 2024-05-20 10:45:31

我读拼花文件的方式如下：

from pyspark.sql import SparkSession
# initialise sparkContext
spark = SparkSession.builder \
    .master('local') \
    .appName('myAppName') \
    .config('spark.executor.memory', '5gb') \
    .config("spark.cores.max", "6") \
    .getOrCreate()

sc = spark.sparkContext

# using SQLContext to read parquet file
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)

# to read parquet file
df = sqlContext.read.parquet('path-to-file/commentClusters.parquet')

编程相关推荐

Java无法调用扩展超级非抽象类的抽象类方法
java Hibernate 5关联[]引用了一个未映射的实体[]：origin（User.hbm.xml）
java禁用JSpinner中的数字分组
java Spring的环境抽象是否使用PropertyEditor？
java是否创建自定义注释作为FrameworkAnnotation的别名？
java如何将Selenium安装为Unix守护程序？
java三值if运算符在正则if-one中
有人能帮我在一个程序上分析java代码吗？
java Spring集成5.0反应堆类型支持
java Websphere 7线程转储分析

相关问题更多 >

编程相关推荐

热门问题

热门文章

我该如何阅读由Spark编写的PySpark拼花？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >