如何找出Dataframe中两列的组合？当数据帧中有多列时？

df_new: Target Source kim lee kim kim kim lee kim b kim d kim a kim f kim g kim d jackson lee jackson kim jackson lee jackson b . . . . lee kim lee jackson lee dan lee b lee d . . .

3条回答

网友

1楼 · 编辑于 2024-09-28 22:40:19

从itertools到^{}、^{}和^{}的一种方式：

from itertools import chain, permutations, product

df = pd.DataFrame(
         chain.from_iterable(product(df1[col_1], df1[col_2])
                             for col_1, col_2 in permutations(df1.columns, r=2)),
         columns=["Target", "Source"]
)

我们首先得到所有列的2-permutations，然后对于每一对，形成它们的值的product。对所有置换执行此操作后，使用chain.from_iterable将它们展平，并传递给数据帧构造函数

我得到一个108 x 2的数据帧：

      Target Source
0        kim    lee
1        kim    kim
2        kim    lee
3    jackson    lee
4    jackson    kim
..       ...    ...
103        g      d
104        g      a
105        d      b
106        d      d
107        d      a

（其中108=3*9*4:3=行，9=行*其他列，4=总列）

网友

2楼 · 编辑于 2024-09-28 22:40:19

这里有一个使用^{}和^{}的方法

>>> df1
   playerA playerB PlayerC PlayerD
0      kim     lee       b       f
1  jackson     kim       d       g
2      dan     lee       a       d
>>> target = df1.melt(value_name='Source')[['Source']]
>>> df_new = pd.merge(target.rename(columns={'Source':'Target'}), target, how='cross')
>>> df_new
    Target   Source
0      kim      kim
1      kim  jackson
2      kim      dan
3      kim      lee
4      kim      kim
..     ...      ...
139      d        d
140      d        a
141      d        f
142      d        g
143      d        d

此方法不考虑^ {< CD3>}和^ {CD4>}的相同索引，但可以使用以下简单的数学方法轻松地删除这些行：

>>> indices_to_drop = [idx * len(target) + idx for idx in range(len(target)]
>>> indices_to_drop
[0, 13, 26, 39, 52, 65, 78, 91, 104, 117, 130, 143]
>>> df_new.drop(indices_to_drop).reset_index(drop=True)
    Target   Source
0      kim  jackson
1      kim      dan
2      kim      lee
3      kim      kim
4      kim      lee
..     ...      ...
127      d        b
128      d        d
129      d        a
130      d        f
131      d        g

网友

3楼 · 编辑于 2024-09-28 22:40:19

您可以使用列表理解

df = pd.DataFrame(columns=["Target", "Source"])
for col in df1:
    df = pd.concat(
        [
            df,
            pd.DataFrame(
                [
                    {"Target": val1, "Source": val2}
                    for val2 in df1.loc[:, df1.columns.difference([col])].values.flatten()
                    for val1 in df1[col]
                ]
            ),
        ],
    )

df

    Target  Source
0   kim b
1   jackson b
2   dan b
3   kim f
4   jackson f
... ... ...
22  g   dan
23  d   dan
24  f   lee
25  g   lee
26  d   lee
108 rows × 2 columns

相关问题更多 >

编程相关推荐

热门问题

热门文章