我有一个CSV文件,其中df1中的column1(ensembl_gene_id)和df2中的column1(gene1)在几行中具有相同的值。我想合并具有相同值的df1(column1)和df2(column2)的数据。 我尝试了下面给出的脚本(我意识到代码有太多错误):
import os
import pandas as pd
df=pd.DataFrame()
for item in os.listdir('./'):
if item.endswith('.csv'):
df1 = pd.read_csv('gene1-protein.csv')
df2 = pd.read_csv('gene1.csv')
df = pd.Dataframe.merge(df1, df2, on=['ensembl_gene_id', 'gene1']
print(df)
我的文件看起来像-
df1
ensembl_gene_id hgnc_symbol gene_biotype
ENSG00000000419 DPM1 protein_coding
ENSG00000000938 FGR protein_coding
ENSG00000000938 FGR protein_coding
ENSG00000001084 GCLC protein_coding
df2
gene1
ENSG00000000419.11
ENSG00000000938.11
ENSG00000001084.9
ENSG00000001084.9
对于具有相同值的df1(column1)和df2(column2),如何将数据合并到单独的csv文件中
我的预期结果应该是-
gene1 ensembl_gene_id hgnc_symbol gene_biotype
ENSG00000000419.11 ENSG00000000419 DPM1 protein_coding
ENSG00000000938.11 ENSG00000000938 FGR protein_coding
ENSG00000000938.11 ENSG00000000938 FGR protein_coding
ENSG00000001084.9 ENSG00000001084 GCLC protein_coding
好的,如果你真的需要保留你的复制品,那你可以这样做。 (假设df2中点后的值对于给定的ensembl_基因_id始终相同)
相关问题 更多 >
编程相关推荐