使用pandas,我在循环中打开一些csv文件,并将索引设置为cycleID
列,但cycleID
列不是唯一的。见下文:
for filename in all_files:
abfdata = pd.read_csv(filename, index_col=None, header=0)
abfdata = abfdata.set_index("cycleID", drop=False)
for index, row in abfdata.iterrows():
print(row['cycleID'], row['mean'])
这将打印我感兴趣的数据帧的2列(cycleID
和mean
),以便进一步计算:
1 1.5020712104685252e-11
1 6.56683605063102e-12
2 1.3993315187144084e-11
2 -8.670502467042485e-13
3 7.0270625256163566e-12
3 9.509995221868016e-12
4 1.2901435995915644e-11
4 9.513106448422182e-12
目标是使用对应于相同cycleID
的行,并计算mean
列值之间的差异。因此,如果表中有8行,那么最终的数组或列表将存储4个值
我还想使它具有可伸缩性,其中可以有3行或更多行具有相同的cycleID
。在这种情况下,每个cycleID
可以有2个或更多的mean
差异
更新:我想在这里添加一个问题,而不是创建一个新的问题。 我使用了解决方案中提到的diff和groupby方法。它工作得很好,但我需要在一个新列中保存一个平均值(奇数行或偶数行无关紧要),并将其作为新数据帧的一部分。我该怎么做
您可以使用
groupby
输出
更新
相关问题 更多 >
编程相关推荐