Python中每一行的两个示例测试

2条回答

网友

1楼 · 编辑于 2024-10-16 22:23:43

如果我理解正确，您可以使用Groupby获得每个特征的平均值，然后在一个数据集中获得每个特征的p值。首先我要创建数据集

a = {'Feature': ['X1','X2','X3','X4','X5']}
Results = pd.DataFrame(data = a)
Results.set_index('Feature')

然后，为了获得特征的平均值，您可以使用group by并将结果发送到此新数据集

Results['Mean-DataSET1'] = df1.groupby('feature')['value'].transform('mean')
Results['Mean-DataSET2'] = df2.groupby('feature')['value'].transform('mean')

现在据我所知，p-tests返回整个列的值，因此我将在一个位置获取两个值列，然后将数据拆分为临时数据集，并获取这些数据的p值

df['value2'] = df2['value']

xone = df[(df['col2'] == 'X1')]
xtwo = df[(df['col2'] == 'X2')] 
xthree = df[(df['col2'] == 'X3')] 
xfour = df[(df['col2'] == 'X4')] 
xfive = df[(df['col2'] == 'X5')]

这样你就可以像以前一样执行相同的函数，得到所有的值

p_vals = ttest_ind(xone['value'], xone['value2']).pvalue, ttest_ind(xtwo['value'], xtwo['value2']).pvalue, ttest_ind(xthree['value'], xthree['value2']).pvalue, ttest_ind(xfour['value'], xfour['value2']).pvalue, ttest_ind(xfive['value'], xfive['value2']).pvalue

Results['P_value'] = p_vals

因此，数据子集上的示例输出如下所示：

    Feature mean1   mean2   P_value
    X1  1.510000    1.633333    0.905175
    X2  -0.233333   -2.266667   0.326891
    X3  -0.033333   1.630000    0.377542

这不是最优雅的答案，但现在应该还可以，因为您只有小数据集

网友

2楼 · 编辑于 2024-10-16 22:23:43

我将上面的输出写入了两个以制表符分隔的文件，并在下面进行了阅读，并添加了一列以指示它来自的dataframe或table：

import pandas as pd
from scipy.stats import ttest_ind
t1 = pd.read_csv("../t1.csv",names=['V1','V2','V3'],sep="\t")
t1['data'] = 'data1'
t2 = pd.read_csv("../t2.csv",names=['V1','V2','V3'],sep="\t")
t2['data'] = 'data2'

    V1  V2  V3  data
0   T1  X1  0.93    data1
1   T1  X2  0.30    data1
2   T1  X3  -2.90   data1
3   T2  X1  1.30    data1

然后我们将它们连接起来，并直接计算平均值：

df = pd.concat([t1,t2])
res = df.groupby("V2").apply(lambda x:x['V3'].groupby(x['data']).mean())
data    data1   data2
V2      
X1  1.026   1.700
X2  0.180   -0.784
X3  0.340   0.836

p.value需要在应用程序中进行多一点编码：

res['pvalue'] = df.groupby("V2").apply(lambda x:
                                       ttest_ind(x[x['data']=="data1"]["V3"],x[x['data']=="data2"]["V3"])[1])
data    data1   data2   pvalue
V2          
X1  1.026   1.700   0.316575
X2  0.180   -0.784  0.521615
X3  0.340   0.836   0.657752

您始终可以选择执行res.reset_index()以获取表

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python中每一行的两个示例测试

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >