比较2个数据帧，循环列，计算匹配索引的相似性

import numpy as np import pandas as pd nan = np.nan # dfA dfA = pd.DataFrame( np.array( [ [1, 2, nan, nan], [1, nan, 1, 2], [nan,5,6, 1], [4, 3, 3, nan], [nan, 1, nan, 2], [2, 1, nan, nan], [1, 3, 1, 2], [nan, nan, nan, 3], [3, nan, 1, 2], [2, nan, 2, nan], ] ), columns=['165413658', '546817846', '685413554', '54684114'], index=['dairy', 'produce', 'hot_deli', 'bakery', 'cold_deli', 'freshmeat', 'flowers', 'fruit', 'beer', 'wine']) # dfB dfB = pd.DataFrame( np.array( [ [1, 2, nan, 1], [nan, 4, 1, nan], [4, nan, nan, 1], [4, 3, 4, 2], [nan, 1, 2, 1], [1, nan, nan, 2], [nan, 3, 2, nan], [1, nan, 1, nan], ] ), columns=['165413658', '546817846', '685413554', '54684114'], index=['dairy', 'bakery', 'wine', 'produce', 'hot_deli', 'cold_deli', 'flowers', 'beer'] )

# dfC dfC = pd.DataFrame( np.array( [ [1, 1, nan, nan], [0.25, nan, 0.25, 1], [nan, 0.2, 0.33, 1], [3, nan, 0.25, nan], [nan, nan, nan, 1], [nan, nan, nan, nan], [nan, 3, 0.5, nan], [nan, nan, nan, 3], [3, nan, nan, nan], [0.5, nan, nan, nan], ] ), columns=['165413658', '546817846', '685413554', '54684114'], index=['dairy', 'produce', 'fruit', 'bakery', 'cold_deli', 'freshmeat', 'flowers', 'hot_deli', 'beer', 'wine'])

utility_rate = [] for index, (userid1, userid2) in enumerate(zip(dfA, dfB)): act_count_dept = dfA[userid1] # grab indices and its values # grab indices and its values for dfB # compare: if dfA index val == dfB index val: # final_calc= dfB.index / dfA.index # elif no match: # dump into other dfB utility_rate.append(final_calc)

1条回答

网友

1楼 · 发布于 2024-09-22 20:37:20

熊猫1.1.0中有一个compare（）。您可以使用它来查找两个数据帧中的总匹配百分比。我还没有测试过，但下面的代码应该会给您一个具有相同值的数据帧。获得该数据帧后，可以使用原始数据帧形状和新数据帧形状计算百分比

dfA.compare(dfB,align_axis=1,keep_shape=False,keep_equal=True)

希望这至少能给你一个指针。有关更多想法，请参阅this：

相关问题更多 >

编程相关推荐

热门问题

热门文章