Python定义一个区块函数来编码基因组数据

Antibiotic ... Genome 0 isoniazid ... ccctgacacatcacggcgcctgaccgacgagcagaagatccagctc... 1 isoniazid ... gggggtgctggcggggccggcgccgataaccccaccggcatcggcg... 2 isoniazid ... aatcacaccccgcgcgattgctagcatcctcggacacactgcacgc... 3 isoniazid ... gttgttgttgccgagattcgcaatgcccaggttgttgttgccgaga... 4 isoniazid ... ttgaccgatgaccccggttcaggcttcaccacagtgtggaacgcgg...

lookup = { 'a': 0.25, 'g': 0.50, 'c': 0.75, 't': 1.00 # z: 0.00 } dfpath = 'C:\\Users\\CAAVR\\Desktop\\Ison.csv' dataframe = pd.read_csv(dfpath, chunksize=10) chunk_list = [] def preprocess(chunk): chunk['Genome'].apply(lambda bps: pd.Series([lookup[bp] if bp in lookup else 0.0 for bp in bps.lower()])).values return; for chunk in dataframe: chunk_filter = preprocess(chunk) chunk_list.append(chunk_filter) dataframe1 = pd.concat(chunk_list) print(dataframe1)

1条回答

网友

1楼 · 发布于 2024-09-26 22:49:27

你有chunk_filter = preprocess(chunk)，但是你的preprocess()函数什么也不返回，所以chunk_filter总是没有意义的。修改预处理函数以存储apply()调用的结果，然后返回该值。例如：

def preprocess(chunk):
  processed_chunk = chunk['Genome'].apply(lambda bps: pd.Series([lookup[bp] if bp in lookup else 0.0 for bp in bps.lower()])).values
  return processed_chunk;

通过这样做，实际上可以从预处理函数返回数据，以便将其附加到块列表中。正如您目前所看到的，预处理函数工作正常，但实际上会丢弃结果

相关问题更多 >

编程相关推荐

热门问题

热门文章