groupby和calculate mean但保留所有列问题的回答

groupby和calculate mean但保留所有列

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我想使用groupby计算数值列的平均值，但要保留所有列。下面是7列数据帧的示例： <pre> tracking_id gene_id gene_short_name tss_id locus FPKM-1 FPKM-2 ENSMUSG00000025902 ENSMUSG00000025902 Sox17 Tss1231 1:4490927-4496413 0.611985 232 ENSMUSG00000025902 ENSMUSG00000025902 Sox17 Ts412 1:4490927-4496413 12 21 ENSMUSG00000025902 ENSMUSG00000025902 Sox17 Ts56 1:4490927-4496413 2 213 ENSMUSG00000025902 ENSMUSG00000025902 Sox17 TS512 1:4490927-4496413 0.611985 5 ENSMUSG00000025902 ENSMUSG00000025902 Sox17 TS12241 1:4490927-4496413 0.611985 51 ENSMUSG00000096126 ENSMUSG00000096126 Gm22307 TS124 1:4529016-4529123 35 1 ENSMUSG00000096126 ENSMUSG00000096126 Gm22307 TS-1824 1:4529016-4529123 1 2 ENSMUSG00000096126 ENSMUSG00000096126 Gm22307 TS1249082 1:4529016-4529123 2 5 ENSMUSG00000088000 ENSMUSG00000088000 Gm25493 TS1290328 1:4723276-4723379 0 1 ENSMUSG00000098104 ENSMUSG00000098104 Gm6085 TS01239-1 1:4687933-4689403 0.0743559 6 ENSMUSG00000033845 ENSMUSG00000033845 Mrpl15 TSS31014,TSS82987,TSS82990,TSS86849 1:4773205-4785739 79.1154 7 ENSMUSG00000093015 ENSMUSG00000093015 Gm22463 TSS79849 1:5644644-5644745 0 1 ENSMUSG00000025905 ENSMUSG00000025905 Oprk1 TSS15316,TSS3878,TSS6226,TSS65522 1:5588492-5606131 0 6 ENSMUSG00000033774 ENSMUSG00000033774 Npbwr1 TSS69693 1:5913706-5917398 0 8 ENSMUSG00000033793 ENSMUSG00000033793 Atp6v1h TSS4651 1:5083172-5162549 24.2386 9 ENSMUSG00000087247 ENSMUSG00000087247 Fam150a TSS42747 1:6359330-6394731 0.502804 1 </pre> 我想按前3列分组，并在输出中保留第4列和第5列（最好是每个重复列1到3的第一行），然后计算最后数值列的平均值。我写了这个： ^{pr2}$ 输出为： <pre> tracking_id gene_id gene_short_name FPKM-1 FPKM-2 ENSMUSG00000025902 ENSMUSG00000025902 Sox17 3.167191 104.4 ENSMUSG00000096126 ENSMUSG00000096126 Gm22307 12.66666667 2.666666667 ENSMUSG00000088000 ENSMUSG00000088000 Gm25493 0 1 ENSMUSG00000098104 ENSMUSG00000098104 Gm6085 0.0743559 6 ENSMUSG00000033845 ENSMUSG00000033845 Mrpl15 79.1154 7 ENSMUSG00000093015 ENSMUSG00000093015 Gm22463 0 1 ENSMUSG00000025905 ENSMUSG00000025905 Oprk1 0 6 ENSMUSG00000033774 ENSMUSG00000033774 Npbwr1 0 8 ENSMUSG00000033793 ENSMUSG00000033793 Atp6v1h 24.2386 9 ENSMUSG00000087247 ENSMUSG00000087247 Fam150a 0.502804 1 </pre> 上面是一个输出，但是缺少输入文件的第4列（TSS）和第5列（轨迹）。如何保留这两列（它们的值不同，因此不能成为groupby列的一部分）。我可以保留列的任何值，只要grouped by中有一个是存在的）。在

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

groupby和calculate mean但保留所有列

1 个回答

相关Python问题