获取datafram中匹配列和不匹配列数据的计数

Document_ID OFFSET PredictedFeature 0 0 2000 0 8 2000 0 16 2200 0 23 2200 0 30 2200 1 0 2100 1 5 2100 1 7 2100

Document_ID OFFSET PredictedFeature 0 0 2000 0 8 2100 0 16 2100 0 23 2100 0 30 2200 1 0 2000 1 5 2000 1 7 2100

2条回答

网友

1楼 · 编辑于 2024-06-25 22:32:35

一种想法是通过^{}将new列转换为整数，然后通过指定新列名称的元组列表将new列与size和sum聚合：

df1['new'] = (df1['PredictedFeature'] == df2['PredictedFeature']).view('i1')

df = (df1.groupby("PredictedFeature")['new']
         .agg([('inputCsvOccured','size'), ('outputcsvmatched','sum')])
         .reset_index())
print (df)
   PredictedFeature  inputCsvOccured  outputcsvmatched
0              2000                2                 1
1              2100                3                 1
2              2200                3                 1

0.25+溶液：

df1['new'] = (df1['PredictedFeature'] == df2['PredictedFeature']).view('i1')

df = (df1.groupby("PredictedFeature")
         .agg(inputCsvOccured=pd.NamedAgg(column='new', aggfunc='size'),
              outputcsvmatched=pd.NamedAgg(column='new', aggfunc='sum'))
         .reset_index())

网友

2楼 · 编辑于 2024-06-25 22:32:35

你可以像下面这样使用groupby

df1_inputPredictedFeature_column = pd.DataFrame([['0', '0', '2000'], ['0', '8', '2000'], ['0', '16', '2200'], ['0', '23', '2200'], ['0', '30', '2200'], ['1', '0', '2100'], ['1', '5', '2100'], ['1', '7', '2100']], columns=('Document_ID', 'OFFSET', 'PredictedFeature'))
df1_predictedFeature_column = pd.DataFrame([['0', '0', '2000'], ['0', '8', '2100'], ['0', '16', '2100'], ['0', '23', '2100'], ['0', '30', '2200'], ['1', '0', '2000'], ['1', '5', '2000'], ['1', '7', '2100']], columns=('Document_ID', 'OFFSET', 'PredictedFeature'))

df1_inputPredictedFeature_column['new'] = (df1_inputPredictedFeature_column['PredictedFeature'] == df1_predictedFeature_column['PredictedFeature']).astype(np.int)

result = df1_inputPredictedFeature_column.groupby("PredictedFeature").agg({"PredictedFeature":"count", "new":np.sum})

result.columns = ["inputCsvOccured", "outputcsvmatched"]
result.index.name = "predictedFeatureClass"

result.reset_index(inplace=True)
print(result)

结果

predictedFeatureClass  inputCsvOccured  outputcsvmatched
0                  2000                2                 1
1                  2100                3                 1
2                  2200                3                 1

相关问题更多 >

编程相关推荐

热门问题

热门文章

获取datafram中匹配列和不匹配列数据的计数

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >