如何在pyspark中从一个数据帧向另一个数据帧添加列？

2024-09-28 22:23:57 发布

您现在位置：Python中文网/ 问答频道 /正文

7841

网友

男 | 程序猿一只，喜欢编程写python代码。

我是pyspark的新手，我试图对我的数据进行一些标记化。我有我的第一个数据帧： 回顾文字|星号

我根据pyspark文档对“文本”进行了标记化：

tokenizer = Tokenizer(inputCol="text", outputCol="words")

countTokens = udf(lambda words: len(words), IntegerType())

tokenized = tokenizer.transform(df2)
tokenized.select("text", "words") \
    .withColumn("howmanywords", countTokens(col("words"))).show(truncate=False)

我得到了我的代币，但现在我想转换如下所示的数据帧：

单词|星星

“话语”是我的象征

所以我需要加入我的第一个数据帧和标记化的数据帧来获得类似的东西。你能帮帮我吗？如何将列添加到另一个数据帧

Tags：数据 text 文档标记文本星号 pyspark tokenizer

1条回答

网友

1楼 · 发布于 2024-09-28 22:23:57

好的，我现在知道了。我只需要做：

tokenizer = Tokenizer(inputCol="text", outputCol="words")


tokenized = tokenizer.transform(df2)
tokenized.select("text", "words", "stars").show(truncate=False)

它起作用了

如何在pyspark中从一个数据帧向另一个数据帧添加列？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在pyspark中从一个数据帧向另一个数据帧添加列？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >