Pandas:合并具有不同时间索引的两个数据帧

2024-09-29 21:55:20 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个很大的日期集,其中包含作为我的标签的分类数据(非统一时间戳)。我有另一个数据集,它是度量的集合。 当我想组装这两个数据集时,它们有两个不同的时间戳(聚合的和非聚合的)。你知道吗

分类数据帧(df\u标签)

count   1185
unique  10
top         ABCD
freq    1165

聚合数据集(MeasureAg), 以便将标签数据帧与测量数据帧组装在一起。 我使用df_Label=df_Label.reindex(MeasureAgg.index, method='nearest') 问题是,这个重新索引的结果将消除我的许多标签,所以数据框描述()将是:

count   4
unique  2
top     ABCD
freq    3

我查看了两行标签被nan替换的地方,但找不到任何迹象表明这是从哪里来的。你知道吗

我怀疑这个问题可能是由于两个时间戳之间的标签集群消除了许多时间戳,但事实并非如此。你知道吗

我为编造的数据集尝试了这个方法,它可以像预期的那样工作,但不确定为什么在我的案例中不起作用df_Label=df_Label.reindex(MeasureAgg.index, method='nearest')

我对我的问题的模糊性表示歉意,我不能用捏造的数据集复制这个问题(因为捏造的数据集工作得很好)。如果有人能指导我用另一种方法/修改的方法来组装这两个数据帧,我将不胜感激。你知道吗

提前谢谢

更新: 只有时间戳,因为它主要是丢失的数据

df_Label.head(5)

Time
2000-01-01 00:00:10.870    NaN
2000-01-01 00:00:10.940    NaN
2000-01-01 00:00:11.160    NaN
2000-01-01 00:00:11.640    NaN
2000-01-01 00:00:12.460    NaN
Name: SUM, dtype: object

df_Label.describe()

count             1185
unique              10
top       9_33_2_0_0_0
freq              1165
Name: SUM, dtype: object

MeasureAgg.head(5)

Time    mean    std skew    kurt
2000-01-01 00:00:00 0.0 0.0     
2010-01-01 00:00:00 0.0         
2015-01-01 00:00:00             
2015-12-01 00:00:00             
2015-12-01 12:40:00 0.0

MeasureAgg.describe()

    mean    std skew    kurt
count   407.0   383.0   382.0   382.0
mean    487.3552791234544 35.67631749396375 -0.7545081710390299 2.52171909979003
std 158.53524231679074 43.66050329988979    1.3831195437535115  6.72280956322486
min     0.0      0.0      -7.526780108501018  -1.3377292623812096
25% 474.33696969696973 11.5126181533734 -1.1790982769904146 -0.4005545816076801
50% 489.03428571428566 13.49696931937243 -0.2372819584684056 -0.017202890096714274
75% 532.3371929824561 51.40084557371704 0.12755009341999793 1.421205718986767
max 699.295652173913 307.8822231525122 1.2280152015331378   66.9243304128838

Tags: 数据方法dftopcount时间分类标签

热门问题