我有一个很大的日期集,其中包含作为我的标签的分类数据(非统一时间戳)。我有另一个数据集,它是度量的集合。 当我想组装这两个数据集时,它们有两个不同的时间戳(聚合的和非聚合的)。你知道吗
分类数据帧(df\u标签)
count 1185
unique 10
top ABCD
freq 1165
聚合数据集(MeasureAg),
以便将标签数据帧与测量数据帧组装在一起。
我使用df_Label=df_Label.reindex(MeasureAgg.index, method='nearest')
问题是,这个重新索引的结果将消除我的许多标签,所以数据框描述()将是:
count 4
unique 2
top ABCD
freq 3
我查看了两行标签被nan替换的地方,但找不到任何迹象表明这是从哪里来的。你知道吗
我怀疑这个问题可能是由于两个时间戳之间的标签集群消除了许多时间戳,但事实并非如此。你知道吗
我为编造的数据集尝试了这个方法,它可以像预期的那样工作,但不确定为什么在我的案例中不起作用df_Label=df_Label.reindex(MeasureAgg.index, method='nearest')
我对我的问题的模糊性表示歉意,我不能用捏造的数据集复制这个问题(因为捏造的数据集工作得很好)。如果有人能指导我用另一种方法/修改的方法来组装这两个数据帧,我将不胜感激。你知道吗
提前谢谢
更新: 只有时间戳,因为它主要是丢失的数据
df_Label.head(5)
Time
2000-01-01 00:00:10.870 NaN
2000-01-01 00:00:10.940 NaN
2000-01-01 00:00:11.160 NaN
2000-01-01 00:00:11.640 NaN
2000-01-01 00:00:12.460 NaN
Name: SUM, dtype: object
df_Label.describe()
count 1185
unique 10
top 9_33_2_0_0_0
freq 1165
Name: SUM, dtype: object
MeasureAgg.head(5)
Time mean std skew kurt
2000-01-01 00:00:00 0.0 0.0
2010-01-01 00:00:00 0.0
2015-01-01 00:00:00
2015-12-01 00:00:00
2015-12-01 12:40:00 0.0
MeasureAgg.describe()
mean std skew kurt
count 407.0 383.0 382.0 382.0
mean 487.3552791234544 35.67631749396375 -0.7545081710390299 2.52171909979003
std 158.53524231679074 43.66050329988979 1.3831195437535115 6.72280956322486
min 0.0 0.0 -7.526780108501018 -1.3377292623812096
25% 474.33696969696973 11.5126181533734 -1.1790982769904146 -0.4005545816076801
50% 489.03428571428566 13.49696931937243 -0.2372819584684056 -0.017202890096714274
75% 532.3371929824561 51.40084557371704 0.12755009341999793 1.421205718986767
max 699.295652173913 307.8822231525122 1.2280152015331378 66.9243304128838
目前没有回答
相关问题 更多 >
编程相关推荐