Pandas按条件分组计数

| feature | gene | target | pos | | 1_1_1 | NRAS | AATTGG | 60 | | 1_1_1 | NRAS | TTGGCC | 6 | | 1_1_1 | NRAS | AATTGG | 20 | | 1_1_1 | KRAS | GGGGTT | 0 | | 1_1_1 | KRAS | GGGGTT | 0 | | 1_1_1 | KRAS | GGGGTT | 0 | | 1_1_2 | NRAS | CCTTAA | 2 | | 1_1_2 | NRAS | GGAATT | 8 | | 1_1_2 | NRAS | AATTGG | 60 |

2条回答

网友

1楼 · 编辑于 2024-09-30 20:20:43

我不太清楚为什么第一排的计数应该是2。你能试着绕过这个问题吗：

import pandas as pd
feature = ["1_1_1"]*6 +["1_1_2"]*3
gene = ["NRAS"]*3+["KRAS"]*3+["NRAS"]*3
target = ["AATTGG","TTGGCC", "AATTGG"]+ ["GGGGTT"]*3 + ["CCTTAA", "GGGGTT", "AATTGG"]
pos = [60,6,20,0,0,0,2,8,60]
df = pd.DataFrame({"feature":feature,
                   "gene":gene,
                   "target":target,
                   "pos":pos})

df.groupby(["feature", "gene"])\
  .apply(lambda x:len(x.drop_duplicates(["target", "pos"])))

网友

2楼 · 编辑于 2024-09-30 20:20:43

好吧，我想好了。如果有更有效的方法来做这件事，我洗耳恭听！在

    # flag targets that are multi-mapped and add flag as new column
    matches['multi_mapped'] = np.where(matches.groupby(["FeatureID", "gene", "target"]).pos.transform('nunique') > 1, "T", '')

    # separate multi and non multi mapped reads using flag
    non = matches[matches["multi_mapped"] != "T"]\
        .drop("multi_mapped", axis=1)
    multi = matches[matches["multi_mapped"] == "T"]\
        .drop("multi_mapped", axis=1)

    # add counts to non multi mapped reads
    non = non.groupby(["FeatureID", "gene", "target"])\
        .count().reset_index().rename(columns={"pos":"count"})

    # add counts to multi-mapped reads with normaliztion 
    multi["count"] = multi.groupby(["FeatureID", "gene", "target"])\
          .transform(lambda x: 1/x.count())
    multi.drop("pos", axis=1, inplace=True)

    # join the multi and non back together
    counts = pd.concat([multi, non], axis=0)

示例数据

问题

到目前为止我所做的一切

期望输出

相关问题更多 >

编程相关推荐

热门问题

热门文章