按最大重叠百分比和值筛选整数范围列表

start = int(key.split(',')[0]) stop = int(key.split(',')[1]) length = stop - start if First == True: Both_Frames[key] = value First = False GeneA[start:stop] = [1] * (stop - start) GenePrev = GeneA PrevStart = start PrevStop = stop prevlength = PrevStop - PrevStart else: GeneA[start:stop] = [1] * (stop - start) Gene_AND = GenePrev & GeneA if start == PrevStart: GenePrev = GeneA ######Need to delete item from dictionary which is overlapping Both_Frames.popitem(last=False) Both_Frames[key] = value PrevStart = start PrevStop = stop prevlength = PrevStop - PrevStart elif start >= PrevStart and stop <= PrevStop: continue elif np.count_nonzero(Gene_AND) <= (length * OverLapPercentage) and np.count_nonzero(Gene_AND) <= OverLapNT: GenePrev = GeneA Both_Frames[key] = value PrevStart = start PrevStop = stop prevlength = PrevStop - PrevStart elif np.count_nonzero(Gene_AND) >= (length * OverLapPercentage) or np.count_nonzero(Gene_AND) >= OverLapNT: if length > prevlength: GenePrev = GeneA Both_Frames.popitem(last=False) Both_Frames[key] = value PrevStart = start PrevStop = stop prevlength = PrevStop - PrevStart

1条回答

网友

1楼 · 发布于 2024-10-02 08:27:12

我可以给你一个复杂的解决方案：

首先，我将您的范围转换为list的tuples的int：

import pandas as pd


r = ["12-48", "40-80", "60-105", "110-130", "75-400"]
r = [tuple(map(int, z.split("-"))) for z in r]

# [(12, 48), (40, 80), (60, 105), (110, 130), (75, 400)]

然后，我迭代所有的范围，并删除所有完全由另一个范围封装的范围。例如：(110, 130)在(75, 400)之内：

hold = []
for idx1 in range(len(r)):
    start_1, stop_1 = r[idx1]
    for idx2, (start_2, stop_2) in enumerate(r):
        if idx1 == idx2:
            continue
        if start_2 < start_1 and stop_1 < stop_2:
            hold.append(idx1)

while hold:
    del r[hold.pop()]

# [(12, 48), (40, 80), (60, 105), (75, 400)]

最后，使用pandas.DataFrame计算重叠和百分比重叠；标记满足排除条件的行（重叠>；10和%>；0.2）。然后按相反的顺序删除这些行，并在每次删除之后再次测试重叠，直到不能删除更多的行为止。你知道吗

然后将数据帧转换回字符串列表，其格式与提供的格式相同。你知道吗

df = pd.DataFrame(r, columns=["start", "stop"]).sort_values("start")

df["length"] = df["stop"] - df["start"]
df["bool_1"], df["bool_2"] = True, True

while any(df["bool_1"].eq(True) & df["bool_2"].eq(True)):
    df["overlap"] = df["stop"] - df["start"].shift(-1)
    df["pc"] = df["overlap"] / df["length"]

    df["bool_1"] = df["overlap"] > 10
    df["bool_2"] = df["pc"] > 0.2
    for i, row in df.sort_index(ascending=False).iterrows():
        if row["bool_1"] == row["bool_2"] and row["bool_1"] is not False:
            df.drop(i, inplace=True)
            break

result = df["start"].astype("str").str.cat(df["stop"].astype("str"), sep="-").to_list()

# ['12-48', '40-80', '75-400']

当前代码

相关问题更多 >

编程相关推荐

热门问题

热门文章