将列表与pyspark列中的每个元素进行比较

df = spark.createDataFrame( [ (1, ['112','333']), (2, ['112','223']) ], ["id", "minhash"] # add your column names here ) minhash_sig = ['112', '223'] df2 = spark.createDataFrame([Row(c1=minhash_sig)])

1条回答

网友

1楼 · 发布于 2024-09-21 05:45:24

df1将不知道df2中的列，除非您连接它们并创建一个对象，您可以尝试先交叉连接这两个列，然后尝试代码：

df.crossJoin(df2).withColumn('minhash_sim',size(array_intersect("c1", "minhash")))\
  .show()

+ -+     +     +     -+
| id|   minhash|        c1|minhash_sim|
+ -+     +     +     -+
|  1|[112, 333]|[112, 223]|          1|
|  2|[112, 223]|[112, 223]|          2|
+ -+     +     +     -+

编程相关推荐

java既然Lucene 4.1中不存在TermEnum，如何从IndexReader中获取字段？
java在LinkedHashSet上的迭代比在ArrayList上的迭代要快
java无法在Android Studio中获得所有@override函数，如onStart、onResume
java的DateTimeFormatter比SimpleDateFormat更严格吗？以毫秒为单位分析日期
JavaSpring*servlet。Websphere服务器启动时未加载xml
java Fancytree selenium单击事件
java日期格式不一样
java无法在Android Studio上运行我的MQTT应用程序
c#计算两个集合的F检验
java JDialog不会显示在“设计”选项卡中

相关问题更多 >

编程相关推荐

热门问题

热门文章

将列表与pyspark列中的每个元素进行比较

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >