如何连接位于另一个数据帧的两列之间的Pyspark数据帧?

2024-09-30 07:32:09 发布

您现在位置:Python中文网/ 问答频道 /正文

我有两个数据帧,其中一个由1列整数组成,第二个数据帧由3列组成(整数开始、整数结束、动物)

数据帧及其列

dataframe1 -> integer

dataframe2 -> integer_start, integer_end, animal

所以我想做的是连接这两个数据帧,这样 如果

dataframe1.integer is in between dataframe2.integer_start and dataframe2.integer_end

取出dataframe1.integer和相应的dataframe2.animal,放入一个名为dataframe3的新数据框中

希望你能帮我。我用PySpark来做这个


Tags: and数据inis整数integerbetweenstart
1条回答
网友
1楼 · 发布于 2024-09-30 07:32:09

您好,您可以使用简单的连接来完成此操作

result= dataframe1.join(dataframe2,[ dataframe2.integer_start <= dataframe1.integer  , dataframe2.integer_end >= dataframe1.integer ], how='inner').select("integer","animal")

这会给你你所需要的

根据是否要包括边缘案例,可以删除<;=中的=和>;=

相关问题 更多 >

    热门问题