从Pandas DataFram创建Spark DataFram

1条回答

网友

1楼 · 发布于 2024-10-01 11:30:42

导入并初始化findspark，创建一个spark会话，然后使用该对象将pandas数据帧转换为spark数据帧。然后将新的spark数据帧添加到目录中。使用python3.6.6在Jupiter 5.7.2和Spyder 3.3.2中测试并运行。在

import findspark
findspark.init()

import pyspark
from pyspark.sql import SparkSession
import pandas as pd

# Create a spark session
spark = SparkSession.builder.getOrCreate()

# Create pandas data frame and convert it to a spark data frame 
pandas_df = pd.DataFrame({"Letters":["X", "Y", "Z"]})
spark_df = spark.createDataFrame(pandas_df)

# Add the spark data frame to the catalog
spark_df.createOrReplaceTempView('spark_df')

spark_df.show()
+   -+
|Letters|
+   -+
|      X|
|      Y|
|      Z|
+   -+

spark.catalog.listTables()
Out[18]: [Table(name='spark_df', database=None, description=None, tableType='TEMPORARY', isTemporary=True)]

编程相关推荐

Java捕获对象错误
添加到HashMap时出现java NullPointerException
java布尔返回问题/从放入数组的方法中获取因子
循环的java打印模式
如何使用azure Java存储SDK V10获取blob Uri
java My app正在将Db实体序列化到de-webservice层。如何将所有内容都转换为DTO？
java通过视频帧平滑地移动水平视图
通过Java中的JFormattedTextFields进行swing验证
java使用Gson将JSON反序列化为非静态嵌套类
java我应该故意捕获检查过的异常吗？

相关问题更多 >

编程相关推荐

热门问题

热门文章

从Pandas DataFram创建Spark DataFram

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >