我有两个数据帧:
首先是平均值:
+----------+-----+
| Category | AVG |
+----------+-----+
| Categ | 1.0 |
+----------+-----+
| Categ2 | 0.5 |
+----------+-----+
...
…
第二个有休闲类别:类别、名称、价格
问题是:
如何从第一个表中删除所有价格低于平均价格的记录??
我试过这样做:
dataGreaterAvge = data.where(data.Price >= avgCategoryPrice.where(data.Category == avgCategoryPrice.Category).collect()[0]["avg(Price)"])
dataGreaterAvge - First dataframe
data - Second dataframe
但是,这并不能像它应该的那样工作,因为它只从average values表中获取第一个元素的值
Spark就像SQL一样工作。。。所以
首先,您需要加入数据帧
然后你就可以正确地过滤了
相关问题 更多 >
编程相关推荐