我是pyspark的新手,我试图对我的数据进行一些标记化。 我有我的第一个数据帧: 回顾文字|星号
我根据pyspark文档对“文本”进行了标记化:
tokenizer = Tokenizer(inputCol="text", outputCol="words")
countTokens = udf(lambda words: len(words), IntegerType())
tokenized = tokenizer.transform(df2)
tokenized.select("text", "words") \
.withColumn("howmanywords", countTokens(col("words"))).show(truncate=False)
我得到了我的代币,但现在我想转换如下所示的数据帧:
单词|星星
“话语”是我的象征
所以我需要加入我的第一个数据帧和标记化的数据帧来获得类似的东西。 你能帮帮我吗?如何将列添加到另一个数据帧
好的,我现在知道了。我只需要做:
它起作用了
相关问题 更多 >
编程相关推荐