我有两个pyspark数据帧,A&B
A有两列date, symbol
B有两列date2 entity
我只想根据日期得到这两个df的union
和{
例如,如果DFA
+----------+------+
| date|symbol|
+----------+------+
|2013-08-30| A|
|2013-08-30| AAL|
|2013-08-30| AAP|
|2013-08-30| AAPL|
|2013-08-30| ABBV|
+----------+------+
B为:
^{pr2}$我只想联合
+----------+--------------------------------+
| dd |union_of_sybols |
+----------+--------------------------------+
|2013-08-30| [A,AAL,AAP,AAPL,ABBV,ABC]|
+----------+--------------------------------+
交叉点为:
+----------+--------------------------------+
| dd |intersection_of_sybols |
+----------+--------------------------------+
|2013-08-30| [A,AAL,AAP,AAPL] |
+----------+--------------------------------+
提前谢谢
您可以从
union
和intersect
函数中获益。在union
或intersect
之后,最后一步是groupBy
,并使用collect_set
内置函数作为聚合为了工会
它应该给你
^{pr2}$交叉口呢
它应该给你
相关问题 更多 >
编程相关推荐