打包处理pyspark中的新类型(适用于pyspark 3.0)
pyspark-custom-types-patch的Python项目详细描述
从复制文件
阿帕奇火花
向dataframe添加新类型的解决方法
所有代码都保留在pyspark3.0.1版本中,除了类型.py以及数据帧.py从sql文件夹
更换类型.py以及数据帧.py在pyspark/sql文件夹中
适用于pyspark3.0.x版本
Spark是用于大规模数据处理的统一分析引擎。它提供 Scala、Java、Python和R中的高级api,以及一个优化的引擎 支持用于数据分析的通用计算图。它还支持 丰富的高级工具集,包括Spark SQL for SQL和DataFrame, MLlib用于机器学习,GraphX用于图形处理, 以及用于流处理的结构化流媒体。在
联机文档
您可以找到最新的Spark文档,包括一个编程 指南,在project web page
Python打包
这个自述文件只包含与pip安装的PySpark相关的基本信息。 这种包装目前是实验性的,在将来的版本中可能会改变(尽管我们会尽最大努力保持兼容性)。 使用PySpark需要Spark jar,如果您是从源代码构建的,请参阅 "Building Spark"。在
Spark的Python打包并不打算取代所有其他用例。这个Python打包的Spark版本适合与现有集群(Spark standalone、YARN或Mesos)交互,但不包含设置独立Spark集群所需的工具。您可以从Apache Spark downloads page下载Spark的完整版本。在
注意:如果在Spark standalone群集中使用此方法,则必须确保版本(包括次要版本)匹配,否则可能会遇到奇怪的错误。在
Python要求
PySpark的核心依赖于Py4J,但是一些附加的子包对某些特性有自己的额外要求(包括numpy、pandas和pyarrow)。在
- 项目
标签: