Python Pandas：为多个用户存储多个可变长度的时间序列

/user_1 /BPM song_1.txt 76 78 song_2.txt 76 78 85 /T song_1.txt 35.7 35.3 35.3 35.3 35.3 song_2.txt 32.2 32.4 37.8 32.4 37.8

1条回答

网友

1楼 · 发布于 2024-09-29 19:24:57

我认为处理数据帧的dicts会更容易。在单元格中创建列表需要大量额外的工作，这在您的情况下是可以避免的。在

我想对您的案例最有帮助的数据结构是为每个歌曲id设置一个数据帧。即使每个用户的数据略有不同，您仍然可以通过使用一些NaN来解决问题。你的数据是一个时间序列，所以你应该以时间为轴。很可能你不想知道确切的时间，而是歌曲开始后的秒数。在

示例结构：

TimeStamp BPM_user1 BPM_user2
1       65      34
2       64      35
3       66      39
4       69      40

或者，您可以使用多列索引（在级别0上使用度量，在级别1使用用户标识）

示例：

^{pr2}$

如果您有许多特定于度量的转换，那么第二种方法更好

然后使用dict保存所有数据帧：

df_dict = {
     'song1': read_df(song_id=1),
     'song2': read_df(song_id=2),
}

然后您可以轻松地迭代以执行分析：

for songid, df in df_dict.items():
       *do analysis*

这个workfow通常比使用更容易出错pd面板在