如何高效地筛选字典中存储的多个数据帧的列？

def MinMaxDates (FileName): DatesMax = {}; DatesMin = {} DatesMinMax = {}; stocks = {} with open (FileName) as file_object: Current_indicators = file_object.read() tickers = Current_indicators.split('\n') for i in tickers: a = '/' in i if a == True: x = i.find("/")+1 df = pd.read_csv(str( i[x:]) + '_data.csv') stocks[i] = df maxDate = max(df.D) minDate = min(df.D) DatesMax[i] = maxDate DatesMin[i] = minDate else: df = pd.read_csv(i + '_data.csv') stocks[i] = df maxDate = max(df.D) minDate = min(df.D) DatesMax[i] = maxDate DatesMin[i] = minDate x = min(DatesMax.values()) y = max(DatesMin.values()) DatesMinMax = {'MaxDate' : x, 'MinDate' : y} return DatesMinMax print DatesMinMax # {'MinDate': '2012-02-08', 'MaxDate': '2017-01-20'}

1条回答

网友
1楼 · 发布于 2024-05-19 12:04:20

实际上，您可能不需要为以后的筛选捕获min和max（因为2016-12-30 < 2017-01-20），只需跨“D”（Date）列上的所有数据帧运行完整的内部联接^{}。你知道吗
考虑使用链式合并来实现这一点，链式合并确保所有dataframe的长度相等，然后按ticker列对输出的主dataframe进行切片，以构建Stocks字典。当然，您可以使用宽主数据框进行分析：
with open (FileName) as file_object: Current_indicators = file_object.read() tickers = Current_indicators.split('\n') # DATA FRAME LIST BUILD dfs = [] for i in tickers: if '/' in i: x = i.find("/")+1 df = pd.read_csv(str( i[x:]) + '_data.csv') # PREFIX ALL NON-DATE COLS WITH TICKER PREFIX df.columns = [i+'_'+str(col) for col in df.columns if col!='D'] dfs.append(df) else: df = pd.read_csv(i + '_data.csv') # PREFIX ALL NON-DATE COLS WITH TICKER PREFIX df.columns = [i+'_'+str(col) for col in df.columns if col!='D'] dfs.append(df) # CHAIN MERGE (INNER JOIN) ACROSS ALL DFS masterdf = reduce(lambda left,right: pd.merge(left, right, on=['D']), dfs) # DATA FRAME DICT BUILD stocks = {} for i in tickers: # SLICE CURRENT TICKER COLUMNS df = masterdf[['D']+[col for col in df.columns if i in col]] # REMOVE TICKER PREFIXES df.columns = [col.replace(i+'_', '') for col in df.columns] stocks[i] = df

相关问题更多 >

编程相关推荐

热门问题

热门文章