处理后将Python块列表放入数据帧

Antibiotic ... Genome 0 isoniazid ... ccctgacacatcacggcgcctgaccgacgagcagaagatccagctc... 1 isoniazid ... gggggtgctggcggggccggcgccgataaccccaccggcatcggcg... 2 isoniazid ... aatcacaccccgcgcgattgctagcatcctcggacacactgcacgc... 3 isoniazid ... gttgttgttgccgagattcgcaatgcccaggttgttgttgccgaga... 4 isoniazid ... ttgaccgatgaccccggttcaggcttcaccacagtgtggaacgcgg...

lookup = { 'a': 0.25, 'g': 0.50, 'c': 0.75, 't': 1.00, 'A': 0.25, 'G': 0.50, 'C': 0.75, 'T': 1.00 # z: 0.00 } dfpath = 'C:\\Users\\CAAVR\\Desktop\\Ison.csv' dataframe = pd.read_csv(dfpath, chunksize=100) chunk_list = [] def preprocess(chunk): processed_chunk = chunk['Genome'].apply(lambda bps: pd.Series([lookup[bp] if bp in lookup else 0.0 for bp in bps.lower()])).values return processed_chunk; for chunk in dataframe: chunk_filter = preprocess(chunk) chunk_list.append(chunk_filter) chunk_array = np.asarray(chunk_list) for chunk in chunk_array: dataframe1 = dataframe.copy() dataframe1["Chunk"] = chunk_array dataframe1.to_csv(r'C:\\Users\\CAAVR\\Desktop\\chunk.csv')

1条回答

网友

1楼 · 发布于 2024-09-26 22:55:16

与其将内存中的所有块组合在一起（这会让你回到内存不足的问题），我建议将每个块分别写出来

如果以追加模式（f = open('out.csv', 'a')）打开文件，可以多次执行dataframe.to_csv(f)。它第一次写入列时，稍后调用dodataframe.to_csv(f, header=False)，因为您之前已经编写了列标题

相关问题更多 >

编程相关推荐

热门问题

热门文章