使用pandas从多个文件构建矩阵

import os import glob import pandas as pd path = 'pathtofiles' transFiles = glob.glob(path + "*.tsv") df_files = [] for file in transFiles: df = pd.read_csv(file, sep='\t') df.set_index('transcript_id') df_files.append(df) df_combine = pd.concat(df_files, axis=1).fillna(0) Error: ValueError: No objects to concatenate

编辑

找到输出

df.set_index('transcript_id') print (df.shape) (921, 1) (1414, 1) (659, 1) (696, 1) (313, 1) print (df.is_unique) (921, 1) False (1414, 1) False (659, 1) False (696, 1) False (313, 1) False df = df.drop_duplicates(inplace=True) df_files.append(df) df_combine = pd.concat(df_files, axis=1).fillna(0) New error ValueError: All objects passed were None

1条回答

网友

1楼 · 发布于 2024-10-04 11:30:16

set_index的默认行为是inplace=False。尝试用df = df.set_index('transcript_id')替换df.set_index('transcript_id')。还可以使用df = df[~df.index.duplicated(keep='first')]删除索引中的重复值。你知道吗

import os
import glob
import pandas as pd

path = 'pathtofiles'
transFiles = glob.glob(path + "*.tsv")
df_files = []
for file in transFiles:
    df = pd.read_csv(file, sep='\t')
    df = df.set_index('transcript_id') # set index
    df = df[~df.index.duplicated(keep='first')] # remove duplicates
    df.columns = [os.path.split(file)[-1]] # set column name to filename
    df_files.append(df)
df_combine = pd.concat(df_files, axis=1).fillna(0)

编辑

复印件

相关问题更多 >

编程相关推荐

热门问题

热门文章