pyspark使用正则表达式搜索关键字，然后与其他数据帧连接

name groceries Mike apple, orange, banana, noodle, red wine Kate white wine, green beans, extra pineapple hawaiian pizza Leah red wine, juice, rice, grapes, green beans Ben water, spaghetti

df = None for keyword in B.select('item').rdd.flatMap(lambda x : x).collect(): if keyword == None: continue pattern = '(?i)^' start = '(?=.*\\b' end = '\\b)' for word in re.split('\\s+', keyword): pattern = pattern + start + word + end pattern = pattern + '.*$' if df == None: df = A.filter(A['groceries'].rlike(pattern)).withColumn('item', F.lit(keyword)) else: df = df.unionAll(A.filter(A['groceries'].rlike(pattern)).withColumn('item', F.lit(keyword)))

name groceries item Mike apple, orange, banana, noodle, red wine red wine Leah red wine, juice, rice, grapes, green beans red wine Kate white wine, green beans, extra pineapple hawaiian pizza green beans Leah red wine, juice, rice, grapes, green beans green beans

test1 = spark.createDataFrame([("Mike","apple, oranges, red wine"),("Kate","Whitewine, green beans waterrr, pineapple, red wine"), ("Leah", "red wine, juice, rice, grapes, green beans"),("Ben","Water,Spaghetti, the little prince 70th anniversary gift set (book/cd/downloadable audio)")],schema=["name","groceries"]) test2 = spark.createDataFrame([("001","red wine"),("002","green beans waterrr"), ("003", "the little prince 70th anniversary gift set (book/cd/downloadable audio)")],schema=["id","item"]) #%% test_join =test1.join(test2,F.expr("""groceries rlike item"""),how='inner').show(truncate = False)

test1 = spark.createDataFrame([("Mike","apple, oranges, red wine"),("Kate","Whitewine, green beans waterrr, pineapple, red wine"), ("Leah", "red wine, juice, rice, grapes, green beans"),("Ben","Water,Spaghetti, the little prince 70th anniversary gift set (book/cd/downloadable audio)")],schema=["name","groceries"]) test2 = spark.createDataFrame([("001","red apple"),("002","green beans waterrr"), ("003", "the little prince 70th anniversary gift set (book/cd/downloadable audio)")],schema=["id","item"])

test1 = spark.createDataFrame([("Mike","apple, oranges, red wine"),("Kate","Whitewine, green beans waterrr, pineapple, red wine"), ("Leah", "red wine, juice, rice, grapes, green beans"),("Ben","Water,Spaghetti, the little prince 70th anniversary gift set (book/cd/downloadable audio)")],schema=["name","groceries"]) test2 = spark.createDataFrame([("001","red apple"),("002","green beans waterrr"), ("003", "the little prince 70th anniversary gift set (book/cd/downloadable audio)")],schema=["id","item"]) test_join = test1.filter(test1['groceries'].rlike('(?i)^(?=.*\\bred\\b)(?=.*\\bapple\\b).*$'))

def my_udf(keyword): if keyword == None: return '' pattern = '(?i)^' start = '(?=.*\\b' end = '\\b)' for word in re.split('\\s+', keyword): pattern = pattern + start + word + end pattern = pattern + '.*$' return pattern regex_udf = udf(my_udf, T.StringType()) B = B.withColumn('regex', regex_udf(B['item'])) regex_join = A.join(B, F.expr("""groceries rlike regex"""), how = 'inner')

1条回答

网友

1楼 · 发布于 2024-06-01 20:03:37

使用F.expr（）可以进行类连接。在您的情况下，您需要将其与内部联接一起使用。试试这个

    #%%
import pyspark.sql.functions as F
test1 =sqlContext.createDataFrame([("Mike","apple,greenbeans,redwine,the little prince 70th anniversary gift set (book/cd/downloadable audio)" ),("kate","Whitewine,greenbeans,pineapple"),("Ben","Water,Spaghetti")],schema=["name","groceries"])
test2 = sqlContext.createDataFrame([("001","redwine"),("002","greenbeans"),("003","cd")],schema=["id","item"])
#%%
test_join =test1.join(test2,F.expr("""groceries rlike item"""),how='inner')

结果:

 test_join.show(truncate=False)
   +  +                                                -+ -+     +
|name|groceries                                                                                        |id |item      |
+  +                                                -+ -+     +
|Mike|apple,greenbeans,redwine,the little prince 70th anniversary gift set (book/cd/downloadable audio)|001|redwine   |
|Mike|apple,greenbeans,redwine,the little prince 70th anniversary gift set (book/cd/downloadable audio)|002|greenbeans|
|Mike|apple,greenbeans,redwine,the little prince 70th anniversary gift set (book/cd/downloadable audio)|003|cd        |
|kate|Whitewine,greenbeans,pineapple                                                                   |002|greenbeans|
+  +                                                -+ -+     +

对于复杂的数据集，contains（）函数必须有效

import pyspark.sql.functions as F
test1 = spark.createDataFrame([("Mike","apple, oranges, red wine,green beans"),("Kate","Whitewine, green beans waterrr, pineapple, red wine"), ("Leah", "red wine, juice, rice, grapes, green beans"),("Ben","Water,Spaghetti, the little prince 70th anniversary gift set (book/cd/downloadable audio)")],schema=["name","groceries"])
test2 = spark.createDataFrame([("001","red wine"),("002","green beans waterrr"), ("003", "the little prince 70th anniversary gift set (book/cd/downloadable audio)")],schema=["id","item"])
#%%
test_join =test1.join(test2,F.col('groceries').contains(F.col('item')),how='inner')

结果:

+  +                                            -+ -+                                    +
|name|groceries                                                                                |id |item                                                                    |
+  +                                            -+ -+                                    +
|Mike|apple, oranges, red wine,green beans                                                     |001|red wine                                                                |
|Kate|Whitewine, green beans waterrr, pineapple, red wine                                      |001|red wine                                                                |
|Kate|Whitewine, green beans waterrr, pineapple, red wine                                      |002|green beans waterrr                                                     |
|Leah|red wine, juice, rice, grapes, green beans                                               |001|red wine                                                                |
|Ben |Water,Spaghetti, the little prince 70th anniversary gift set (book/cd/downloadable audio)|003|the little prince 70th anniversary gift set (book/cd/downloadable audio)|
+  +                                            -+ -+                                    +

相关问题更多 >

编程相关推荐

热门问题

热门文章