假设我有这样一个数据帧。在
[Row(case_number='5307793179', word_list=['n', 'b', 'c']),
Row(case_number='5307793171', word_list=['w', 'e', 'c']),
Row(case_number='5307793172', word_list=['1', 'f', 'c']),
Row(case_number='5307793173', word_list=['a', 'k', 'c']),
Row(case_number='5307793174', word_list=['z', 'l', 'c']),
Row(case_number='5307793175', word_list=['b', 'r', 'c'])]
还有一个像这样的主单词表:
^{pr2}$有没有一种平滑的方法可以根据主单词表过滤word_列表,从而生成的pyspark数据帧如下所示。(我所说的sleek是指不使用udf,如果udf是最好/唯一的方法,我也会接受它作为解决方案)
[Row(case_number='5307793179', word_list=['b', 'c']),
Row(case_number='5307793171', word_list=['c']),
Row(case_number='5307793172', word_list=['c']),
Row(case_number='5307793173', word_list=['c']),
Row(case_number='5307793174', word_list=['c']),
Row(case_number='5307793175', word_list=['b', 'c'])]
^{} 从Spark 2.4开始提供:
^{pr2}$相关问题 更多 >
编程相关推荐