无法从pandas数据框中提取正确的列

1 2 3 4 ... 1000 S1 TAA/TAA/TGA/CCC/.../TGA S2 ATG/-AT/TAG/---/.../TGA S3 ATG/TAA/-CC/--T/.../TAA S4 ATG/TAA/GTA/CCC/.../TAA S5 ATG/-AT/---/---/.../TAG S6 ATG/TAA/-CC/--T/.../TAG S7 ATG/TAA/GTA/CCC/.../CCC S8 ATG/-AT/---/---/.../CCC S9 ATG/TAA/-CC/--T/.../CCC S10 ATG/TAA/-CC/--T/.../CCC

df # (loaded earlier from a large script) df_track = pd.DataFrame() # make new df to track less than 40% stop codons in columns codon = ["TAA","TGA","TAG"] def track_lessthan40(df, codon, 0.4): num_rows = len(df) change = [col for col in df.columns \ if sum(df[col] == codon[0]) > 0 or sum(df[col] == codon[1]) > 0 \ or sum(df[col] == codon[2]) > 0 \ and sum(df[col] == codon[0]) \ and sum(df[col] == codon[1]) \ and sum(df[col] == codon[2]) < round(num_rows*0.4, 2)] df_change = df[change] print(df_change)

1 3 ... 1000 S1 TAA/TGA/.../TGA S2 ATG/TAG/.../TGA S3 ATG/-CC/.../TAA S4 ATG/GTA/.../TAA S5 ATG/---/.../TAG S6 ATG/-CC/.../TAG S7 ATG/GTA/.../CCC S8 ATG/---/.../CCC S9 ATG/-CC/.../CCC S10 ATG/-CC/.../CCC

2条回答

网友

1楼 · 编辑于 2024-05-02 13:31:02

似乎您的示例代码的组成和您使用的df之间可能存在差异。Jon稍微调整的示例和我的脚本适用于您的示例（见图）。你知道吗

# my clunky example
import pandas as pd
csv = '/Users/<USER>/PycharmProjects/stackoverflow/gattaka.text'

df = pd.read_table(csv, sep='/')

df_track = pd.DataFrame()  # make new df to track less than 40% stop codons in columns
codon = ["TAA", "TGA", "TAG"]

for column in df.columns:
    col_length = len(df[column])
    col_list = df[column].tolist()

    sum_stopper = 0
    for gene in col_list:
        if gene in codon:
            sum_stopper += 1

    if sum_stopper == 0:
        break

    elif sum_stopper <= (0.4 * col_length):
        col_series = pd.Series(col_list, name=column)
        df_track[column] = col_series

print(df_track)
print('   ')

# Jon's adjusted, pretty, concise and pythonic example
df_track = df.loc[:, (df.isin(codon).sum()/len(df) <= 0.4) & (df.isin(codon).sum() > 0)]

网友

2楼 · 编辑于 2024-05-02 13:31:02

IIUC公司 df.isin(codon).sum()/len(df) <= 0.4 输出

#    1       True
#  2        False
# 3          True
#   4        True
# 1000      False

您可以选择如下列：

df.loc[:, df.isin(codon).sum()/len(df) <= 0.4]

使用^{}检查列中是否有任何停止密码子，求和以计算其为真的次数，除以数据帧的长度以获得百分比。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章