Spark 2.0 toPandas方法

2024-09-30 16:37:13 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个spark数据帧,如下所示:

topics.show(2)
+-----+--------------------+--------------------+--------------------+
|topic|         termIndices|         termWeights|        topics_words|
+-----+--------------------+--------------------+--------------------+
|    0|[0, 39, 68, 43, 5...|[0.06362107696025...|[, management, sa...|
|    1|[3, 1, 8, 6, 4, 1...|[0.03164821806301...|[objectives, lear...|
+-----+--------------------+--------------------+--------------------+
only showing top 2 rows

然而,当我试图使用1.6中的以下方法转换为pandas数据帧时,我得到了一个错误。在

^{pr2}$

所以不确定Spark 2.0.2中的这个方法是否有错误或者出了什么问题?在


Tags: 数据方法onlytopicshow错误samanagement
1条回答
网友
1楼 · 发布于 2024-09-30 16:37:13

正在复制我的answer from a related question

有一个公开的问题:

https://issues.apache.org/jira/browse/SPARK-27335?jql=text%20~%20%22setcallsite%22

该海报建议您强制将DF的后端与Spark上下文同步:

df.sql_ctx.sparkSession._jsparkSession = spark._jsparkSession
df._sc = spark._sc

这对我们有用,希望在其他情况下也能起作用。在

相关问题 更多 >