Pyspark数据帧未删除所有重复项

df_new.show() +-------+----------------+---------+-------+-------------+-----------------+ |column1| column2| column3|column4|dml_operation| ingest_date| +-------+----------------+---------+-------+-------------+-----------------+ | data6| z| update| z| 2|20190308190720942| | data7| y| update| y| 2|20190308190720942| | data8| x| update| x| 2|20190308190720942| | data9| f| f| f| 0|20190308190720942| | data1| d| b| c| 2|20190308190720942| | data4| f| c| b| 1|20190308190720942| | data3| a| b| b| 0|20190308190720942| | date6|this should drop|more text| z| 2|20190308190720942| | data8|this should drop| here| x| 1|20190308190720942| | date6|this should drop|more text| z| 0|20190308190720942| +-------+----------------+---------+-------+-------------+-----------------+

print_df = df_new.dropDuplicates(pk) print_df.show() +-------+----------------+---------+-------+-------------+-----------------+ |column1| column2| column3|column4|dml_operation| ingest_date| +-------+----------------+---------+-------+-------------+-----------------+ | data3| a| b| b| 0|20190308190720942| | date6|this should drop|more text| z| 2|20190308190720942| | data7| y| update| y| 2|20190308190720942| | data8| x| update| x| 2|20190308190720942| | data9| f| f| f| 0|20190308190720942| | data4| f| c| b| 1|20190308190720942| | data6| z| update| z| 2|20190308190720942| | data1| d| b| c| 2|20190308190720942| +-------+----------------+---------+-------+-------------+-----------------+

1条回答

网友

1楼 · 发布于 2024-09-27 07:27:46

这里的问题应该是“date6”。如果它的“data6”，则按预期删除重复项。这可能是因为date被认为是python中的数据类型。你知道吗

>>> df_new.show()
+   -+        +    -+   -+      -+        -+
|column1|         column2|  column3|column4|dml_operation|      ingest_date|
+   -+        +    -+   -+      -+        -+
|  data6|               z|   update|      z|            2|20190308190720942|
|  data7|               y|   update|      y|            2|20190308190720942|
|  data8|               x|   update|      x|            2|20190308190720942|
|  data9|               f|        f|      f|            0|20190308190720942|
|  data1|               d|        b|      c|            2|20190308190720942|
|  data4|               f|        c|      b|            1|20190308190720942|
|  data3|               a|        b|      b|            0|20190308190720942|
|  data6|this should drop|more text|      z|            2|20190308190720942|
|  data8|this should drop|     here|      x|            1|20190308190720942|
|  data6|this should drop|more text|      z|            0|20190308190720942|
+   -+        +    -+   -+      -+        -+

>>> df_new.dropDuplicates(['column1','column4']).show()
+   -+   -+   -+   -+      -+        -+
|column1|column2|column3|column4|dml_operation|      ingest_date|
+   -+   -+   -+   -+      -+        -+
|  data3|      a|      b|      b|            0|20190308190720942|
|  data7|      y| update|      y|            2|20190308190720942|
|  data8|      x| update|      x|            2|20190308190720942|
|  data9|      f|      f|      f|            0|20190308190720942|
|  data4|      f|      c|      b|            1|20190308190720942|
|  data6|      z| update|      z|            2|20190308190720942|
|  data1|      d|      b|      c|            2|20190308190720942|
+   -+   -+   -+   -+      -+        -+

相关问题更多 >

编程相关推荐

热门问题

热门文章