根据另一个数据集中的元素位置快速筛选数据帧的方法问题的回答

根据另一个数据集中的元素位置快速筛选数据帧的方法

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我正在使用3个数据框，其中包含关于多个细胞组差异基因表达的信息。它本质上是一个多维数据帧，其中一个数据帧（名称）是在p值和foldchange数据帧中查找对应值的位置的索引 <pre class="lang-python prettyprint-override"><code>columns = ['g0','g1','g2','g3'] names = pd.DataFrame(data = [ ['Fxyd3', 'Apoe', 'Apoe', 'Apoe'], ['Apoe', 'Hspg2', 'Hspg2', 'Ltbp3'], ['Tpm1', 'Ltbp3', 'Ltbp3', 'Hspg2'], ['App', 'Serpinh1', 'Fxyd3', 'Fxyd3'], ['Ltbp3', 'Fxyd3', 'Serpinh1', 'Lgr5'], ['Hspg2', 'Lgr5', 'Lgr5', 'App'], ['Slc6a6', 'App', 'App', 'Serpinh1'], ['Serpinh1', 'Slc6a6', 'Slc6a6', 'Slc6a6'], ['Lgr5', 'Tpm1', 'Tpm1', 'Tpm1'], ['Krt15', 'Krt15', 'Krt15', 'Krt15']], columns = columns) np.random.seed(0) pvalues = pd.DataFrame(data = np.random.rand(10,4)/100, columns = columns) foldchanges = pd.DataFrame(data =np.random.rand(10,4)*100, columns = columns) </code></pre> 我想做的是找到每个基因的最小p值以及相应的foldchange和group name。经过数小时的思考，我终于找到了解决方案： <pre class="lang-python prettyprint-override"><code>gene_set = ['Hspg2', 'Ltbp3', 'Lgr5', 'Krt15', 'Serpinh1', 'Tpm1', 'App', 'Apoe', 'Slc6a6', 'Fxyd3'] df = pd.DataFrame(index = gene_set, columns = ['pvalues', 'foldchanges', 'group'], data = 0) for gene in gene_set: bool_df = names.values == gene values = pvalues.values[bool_df] df['pvalues'].loc[gene] = min(values) df['foldchanges'].loc[gene] = foldchanges.values[bool_df][values==min(values)] values = pvalues.T.values[bool_df.T] #Fix to get out correct group name df['group'].loc[gene] = columns[np.where(values==min(values))[0][0]] </code></pre> 产生如下输出： <pre class="lang-python prettyprint-override"><code> pvalues foldchanges group Hspg2 0.004376 21.038256 g2 Ltbp3 0.000202 65.310833 g0 Lgr5 0.004562 97.676109 g0 Krt15 0.006121 28.280696 g0 Serpinh1 0.005218 83.794491 g0 Tpm1 0.000188 73.926358 g2 App 0.001434 82.099323 g2 Apoe 0.004237 66.676672 g0 Slc6a6 0.001183 19.658236 g0 Fxyd3 0.000710 20.887676 g2 </code></pre> 现在，我的问题是，在完整的数据集中，我有20多个组和大约50000个基因，最终运行大约需要15-20分钟。我想为多个数据集运行这段代码。所以我想知道是否有一种更优雅、更快的方法来实现同样的目标 编辑：添加了用于再现性的随机种子，并添加了一个修复程序以获得正确的组名

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

根据另一个数据集中的元素位置快速筛选数据帧的方法

1 个回答

相关Python问题