在pyspark数据帧中添加POS partofspeech列

------------------------ | event_dt | words | ------------------------ | 2020-09-02 | mifi | | 2020-09-02 | hotspot | | 2020-09-03 | service | | 2020-09-03 | word | | 2020-09-03 | plan |

------------------------------- | event_dt | words | pos | ------------------------------- | 2020-09-02 | mifi | ADJ | | 2020-09-02 | hotspot | ADJ | | 2020-09-03 | service | ADJ | | 2020-09-03 | word | NOUN | | 2020-09-03 | plan | NOUN |

1条回答

网友

1楼 · 发布于 2024-09-28 12:11:52

处理这种情况的最佳方法是使用when()otherwise()，它只不过是if else

一个先决条件：只需将所有单词添加到列表中

在这里创建数据框

df = spark.createDataFrame([("2020-09-02","mifi"),("2020-09-02","hotspot"),("2020-09-02","service"),("2020-09-02","word"),("2020-09-02","plan")],["event_dt","word"])
df.show(truncate=False)
+     +   -+
|event_dt  |word   |
+     +   -+
|2020-09-02|mifi   |
|2020-09-02|hotspot|
|2020-09-02|service|
|2020-09-02|word   |
|2020-09-02|plan   |
+     +   -+

形容词和；when（）否则（）条件

adj = ["mifi", "hotspot","service"]
df = df.withColumn("pos", F.when(F.col("word").isin(adj), F.lit("ADJ")).otherwise(F.lit("NOUN")))
df.show(truncate=False)

最终产量

+     +   -+  +
|event_dt  |word   |pos |
+     +   -+  +
|2020-09-02|mifi   |ADJ |
|2020-09-02|hotspot|ADJ |
|2020-09-02|service|ADJ |
|2020-09-02|word   |NOUN|
|2020-09-02|plan   |NOUN|
+     +   -+  +

在这里创建数据框

形容词和；when（）否则（）条件

最终产量

相关问题更多 >

编程相关推荐

热门问题

热门文章