使用pandas聚合所有dataframe行对组合

import pandas import itertools mygenes=['ABC1', 'ABC2', 'ABC3', 'ABC4'] df = pandas.DataFrame({'Gene' : ['ABC1', 'ABC2', 'ABC3', 'ABC4','ABC5'], 'case1' : [0,1,1,0,0], 'case2' : [1,1,1,0,1], 'control1':[0,0,1,1,1], 'control2':[1,0,0,1,0] }) >>> df Gene case1 case2 control1 control2 0 ABC1 0 1 0 1 1 ABC2 1 1 0 0 2 ABC3 1 1 1 0 3 ABC4 0 0 1 1 4 ABC5 0 1 1 0

case1 case2 control1 control2 'ABC1', 'ABC2' 1 2 0 1 'ABC1', 'ABC3' 1 2 1 1 'ABC1', 'ABC4' 0 1 1 2 'ABC2', 'ABC3' 2 2 1 0 'ABC2', 'ABC4' 1 1 1 1 'ABC3', 'ABC4' 1 1 2 1

2条回答

网友

1楼 · 编辑于 2024-09-28 22:19:22

在走得太远之前，你应该记住你的数据变得非常快。对于5行，输出将是C(5,2)或5+4+3+2+1等。

也就是说，我会考虑在numpy中做这个以提高速度（你可能想在你的问题中添加一个numpy标签）。无论如何，这并不像它可能的那样矢量化，但至少应该是一个开始：

df2 = df.set_index('Gene').loc[mygenes].reset_index()

import math
sz = len(df2)
sz2 = math.factorial(sz) / ( math.factorial(sz-2) * 2 )

Gene = df2['Gene'].tolist()
abc = df2.ix[:,1:].values

import math
arr = np.zeros([sz2,4])
gene2 = []
k = 0

for i in range(sz):
    for j in range(sz):
        if i != j and i < j:
            gene2.append( gene[i] + gene[j] )
            arr[k] = abc[i] + abc[j]
            k += 1

pd.concat( [ pd.DataFrame(gene2), pd.DataFrame(arr) ], axis=1 )
Out[1780]: 
          0  0  1  2  3
0  ABC1ABC2  1  2  0  1
1  ABC1ABC3  1  2  1  1
2  ABC1ABC4  0  1  1  2
3  ABC2ABC3  2  2  1  0
4  ABC2ABC4  1  1  1  1
5  ABC3ABC4  1  1  2  1

根据大小/速度问题，您可能需要分离字符串和数字代码，并对数字块进行矢量化。如果你的数据很大，如果数据很大，这段代码不太可能很好地扩展，这可能会决定你需要什么样的答案（也可能需要考虑如何存储结果）。

网友

2楼 · 编辑于 2024-09-28 22:19:22

我想不出一个聪明的矢量化方法来实现这一点，但是除非性能是一个真正的瓶颈，否则我倾向于使用最简单的有意义的东西。在这种情况下，我可以set_index("Gene")，然后使用loc来挑选行：

>>> df = df.set_index("Gene")
>>> cc = list(combinations(mygenes,2))
>>> out = pd.DataFrame([df.loc[c,:].sum() for c in cc], index=cc)
>>> out
              case1  case2  control1  control2
(ABC1, ABC2)      1      2         0         1
(ABC1, ABC3)      1      2         1         1
(ABC1, ABC4)      0      1         1         2
(ABC2, ABC3)      2      2         1         0
(ABC2, ABC4)      1      1         1         1
(ABC3, ABC4)      1      1         2         1

相关问题更多 >

编程相关推荐

热门问题

热门文章