如何生成更高效的代码来搜索pandas中列中的多个字符串

import pandas as pd from scipy.stats import ttest_ind rnatest = {'Gene symbol':["GeneA","GeneB"],"rnaseq1A":[1,1.5],"rnaseq1B":[1.3,1.2],"rnaseq2A":[2.3,2.7],"rnaseq2B":[2,2.6]} df = pd.DataFrame(rnatest) GOIlist = ["GeneA","GeneB"] GOI = [] mu = [] pval = [] for index, row in df.iterrows(): if row['Gene symbol'] in GOIlist: t, p = ttest_ind([row["rnaseq1A"],row["rnaseq1B"]],[row["rnaseq2A"],row["rnaseq2B"]]) GOI.append(row['Gene symbol']) mu.append(t) pval.append(p) df2 = {'Gene symbol':GOI,"tVAL":mu, "pVAL":pval} df2 = pd.DataFrame(df2) print(df2)

1条回答

网友

1楼 · 发布于 2024-06-14 06:20:31

使用pandas的优点是可以执行列操作。这些是generally more efficient then iterating over the DataFrame with a for loop

我稍微修改了你的df，向你展示了过滤掉我们需要的行的效果

>>> import pandas as pd
>>> from scipy.stats import ttest_ind
>>> GOIlist = ["GeneA","GeneB"]
>>> rnatest = {'Gene symbol':["GeneA","GeneB", "GeneC"],"rnaseq1A":[1,1.5,2],"rnaseq1B":[1.3,1.2,1.1],"rnaseq2A":[2.3,2.7,3.1],"rnaseq2B":[2,2.6,3.2]} 
>>> df = pd.DataFrame(rnatest)
>>> print(df)

    Gene symbol     rnaseq1A    rnaseq1B    rnaseq2A    rnaseq2B
0   GeneA           1.0         1.3         2.3         2.0
1   GeneB           1.5         1.2         2.7         2.6
2   GeneC           2.0         1.1         3.1         3.2

现在我将如何重写您的代码：

使用set_index使Gene symbol行成为索引，这会加快速度加快查找时间（尤其是在数据帧较大的情况下）
使用loc筛选出具有位于GOIlist中的基因符号的行
创建两个新列pVal和tVal，为其分配ttest_ind的输出。请注意，我们不再需要对行进行迭代
如果不想在输出中看到rnaseq*列，可以选择删除这些列

代码：

>>> df3 = df.set_index(['Gene symbol'])
>>> df3 = df3.loc[GOIlist]
>>> df3['tVal'], df3['pVal'] = ttest_ind([df3["rnaseq1A"], df3["rnaseq1B"]], [df3["rnaseq2A"], df3["rnaseq2B"]])
>>> df3 = df3.drop(['rnaseq1A', 'rnaseq1B', 'rnaseq2A', 'rnaseq2B'], axis=1)
>>> print(df3)
            tVal        pVal
Gene symbol         
GeneA       -4.714045   0.042174
GeneB       -8.221922   0.014473

那么，这段代码现在有多高效

如果我人为地将数据帧的大小增加10.000倍（因此总共增加30.000行，而不是3行）

n = 10_000
rnatest = {'Gene symbol':["GeneA","GeneB", "GeneC"]*n, "rnaseq1A":[1,1.5,2]*n, "rnaseq1B":[1.3,1.2,1.1]*n, "rnaseq2A":[2.3,2.7,3.1]*n, "rnaseq2B":[2,2.6,3.2]*n} 
df = pd.DataFrame(rnatest)

然后我可以使用^{}来测量代码的执行时间。对于您最初的方法，我得到的结果是：

13.7 s ± 555 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

当我的方法在

45.2 ms ± 1.27 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

所以这是一个more than 300 times加速

相关问题更多 >

编程相关推荐

热门问题

热门文章