基于列条件的PySpark dropdups

+------+--------+ |ID | Hit | +------+--------+ |123 | 0 | |456 | 1 | |789 | 0 | |123 | 1 | |123 | 0 | |789 | 1 | |1234 | 0 | | 1234 | 0 | +------+--------+

1条回答

网友

1楼 · 发布于 2024-09-27 23:21:32

# Creating the Dataframe.
from pyspark.sql.functions import col
df = sqlContext.createDataFrame([(123,0),(456,1),(789,0),(123,1),(123,0),(789,1),(500,0),(500,0)],
                                ['ID','Hit']) 
df.show()
+ -+ -+ 
| ID|Hit| 
+ -+ -+ 
|123|  0| 
|456|  1| 
|789|  0| 
|123|  1| 
|123|  0| 
|789|  1| 
|500|  0| 
|500|  0| 
+ -+ -+

这个想法是找到每个ID中total的Hit，如果它大于0，则意味着Hit中至少存在一个1。因此，当这个条件为true时，我们将删除所有rows值为Hit的rows。你知道吗

# Registering the dataframe as a temporary view.
df.registerTempTable('table_view')
df=sqlContext.sql(
    'select ID, Hit, sum(Hit) over (partition by ID) as sum_Hit from table_view'
)
df.show()
+ -+ -+   -+ 
| ID|Hit|sum_Hit| 
+ -+ -+   -+ 
|789|  0|      1| 
|789|  1|      1| 
|500|  0|      0| 
|500|  0|      0| 
|123|  0|      1| 
|123|  1|      1| 
|123|  0|      1| 
|456|  1|      1| 
+ -+ -+   -+
df = df.filter(~((col('Hit')==0) & (col('sum_Hit')>0))).drop('sum_Hit').dropDuplicates()
df.show()
+ -+ -+ 
| ID|Hit|  
+ -+ -+ 
|789|  1| 
|500|  0| 
|123|  1| 
|456|  1|
+ -+ -+

相关问题更多 >

编程相关推荐

热门问题

热门文章

基于列条件的PySpark dropdups

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >