Python，迭代和修改df字典中的数据帧问题的回答

Python，迭代和修改df字典中的数据帧

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

来自C的背景（几年前），而且对Python非常陌生，我正在努力优化我的代码。从字面上讲，for循环非常慢。在 在下面的代码中，向Dict中的每个数据帧添加计算列的循环似乎是一个巨大的瓶颈。在 我已经读了很多关于解决这个问题的方法，比如；<a href="https://engineering.upside.com/a-beginners-guide-to-optimizing-pandas-code-for-speed-c09ef2c6a4d6" rel="nofollow noreferrer">Vectorisation</a>和<a href="https://towardsdatascience.com/speed-up-your-algorithms-part-2-numba-293e554c5cc1" rel="nofollow noreferrer">Numba</a>，但我认为我对Python了解不够，无法真正理解和使用它们。在 事实上，我对这两种方法的尝试都失败了，可能是不正确的实现，除了我用过的一个测试np.哪里. 这向我展示了我的for循环/计算有多糟糕。在 我将在我的工作示例中省略这些尝试，但如果需要，可以在以后添加： <pre><code>import pandas as pd import numpy as np import datetime as date import itertools def points(row): val = 0 if row['Ob2'] > 0.5: foo = row['Ob3'] - row['Ob1'] if foo < 0.1: val = 1 - foo else: val = 0 return val print("Start: "+ str(date.datetime.now())) print() player_list = ['player' + str(x) for x in range(1,71)] data = pd.DataFrame({'Names': player_list*1000,\ 'Ob1' : np.random.rand(70000),\ 'Ob2' : np.random.rand(70000) ,\ 'Ob3' : np.random.rand(70000)}) #create list of unique pairs comboNames = list(itertools.combinations(data.Names.unique(), 2)) #create a data frame dictionary to store your data frames DataFrameDict = {elem : pd.DataFrame for elem in comboNames} for key in DataFrameDict.keys(): DataFrameDict[key] = data[:][data.Names.isin(key)] DataFrameDict[key] = DataFrameDict[key].sort_values(['Ob1']) print("DF fill: "+ str(date.datetime.now())) print() #Add test calculated column for tbl in DataFrameDict: DataFrameDict[tbl]['Test'] = DataFrameDict[tbl].apply(points, axis=1) #Slow loop #example vectorised, hugh dif is run time #DataFrameDict[tbl]['Test'] = np.where((DataFrameDict[tbl]['Ob2']>0.5),1,0) print("Calc'd: "+ str(date.datetime.now())) print() headers = ['Player1','Player2','Score','Count'] summary = pd.DataFrame(([tbl[0], tbl[1], DataFrameDict[tbl]['Test'].sum(), DataFrameDict[tbl]['Test'].astype(bool).sum(axis=0)] for tbl in DataFrameDict), columns=headers).sort_values(['Score'], ascending=[False]) print("Fin: "+ str(date.datetime.now())) print() </code></pre> 编辑：该函数添加一列，该列是每个df中两个“players”的比较，因此我们/我无法将其应用于源数据源。很抱歉没有说清楚。 显然，我需要回溯并学习一些Python基础知识，但是我的老板正在等待真正的脚本，它花了3个小时运行一个标准的500个“名称”（125K个数据帧）。在 如果有人能帮我优化它，我将不胜感激！在 EDIT2：更好地表示现实世界中的问题 ^{pr2}$ 我的<a href="https://stackoverflow.com/a/55671862/5608428">Solution</a>由于混乱，不想在这里发帖。在

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

<pre><code>import pandas as pd import numpy as np import datetime as date import itertools player_list = ['player' + str(x) for x in range(1,71)] data = pd.DataFrame({'Names': player_list*1000,\ 'Ob1' : np.random.rand(70000),\ 'Ob2' : np.random.rand(70000) ,\ 'Ob3' : np.random.rand(70000)}) data['Test'] = np.where(data['Ob2'] > 0.5, np.where(data['Ob3'] - data['Ob1'] < 0.1, 1 - (data['Ob3'] - data['Ob1']), 0), 0) comboNames = list(itertools.combinations(data.Names.unique(), 2)) DataFrameDict = {elem : pd.DataFrame for elem in comboNames} for key in DataFrameDict.keys(): DataFrameDict[key] = data[:][data.Names.isin(key)] DataFrameDict[key] = DataFrameDict[key].sort_values(['Ob1']) headers = ['Player1','Player2','Score','Count'] summary = pd.DataFrame(([tbl[0], tbl[1], DataFrameDict[tbl]['Test'].sum(), DataFrameDict[tbl]['Test'].astype(bool).sum(axis=0)] for tbl in DataFrameDict), columns=headers).sort_values(['Score'], ascending=[False]) </code></pre> 我尽量保留你的代码。我把你的功能改成了np.哪里而不是apply，并在创建dict之前添加了test列，因为正如我在评论中所表达的那样，在那时执行apply没有任何意义。在 使用<code>%%timeit</code>时，每个循环得到26.2 s±1.15 s（平均值±标准偏差，7次运行，每个循环1次） 编辑： 这是我最快的速度： ^{pr2}$ 我的目标是不使用循环或dicts来进一步提高速度。在 我的函数ScoreAndCount返回每个玩家的分数和计数。这个帕金森病获取函数的返回值并将其添加到初始df中。在 然后，我使用了itertools组合，并将其作为自己的数据帧，称为summary。然后，我将summary df的player1和player2列与原始df中的names列合并。在 下一步，我把玩家的分数和计数加起来，去掉不必要的列，然后进行排序。我最后每圈157ms。最慢的步骤是concat和merge，但是我想不出办法绕过它们，进一步提高速度。在 编辑3 我们将为两个测试设置一个种子并使用相同的数据df： <pre><code>np.random.seed(0) player_list = ['player' + str(x) for x in range(1,71)] data = pd.DataFrame({'Names': player_list*10,\ 'Ob1' : np.random.rand(700),\ 'Ob2' : np.random.rand(700) ,\ 'Ob3' : np.random.rand(700)}) data.head() Names Ob1 Ob2 Ob3 0 player1 0.548814 0.373216 0.313591 1 player2 0.715189 0.222864 0.365539 2 player3 0.602763 0.080532 0.201267 3 player4 0.544883 0.085311 0.487148 4 player5 0.423655 0.221396 0.990369 </code></pre> 接下来我们将使用您的确切代码，并检查player1和player2之间的dict。在 <pre><code> def points(row): val = 0 if row['Ob2'] > 0.5: foo = row['Ob3'] - row['Ob1'] if foo < 0.1: val = 1 - foo else: val = 0 return val #create list of unique pairs comboNames = list(itertools.combinations(data.Names.unique(), 2)) DataFrameDict = {elem : pd.DataFrame for elem in comboNames} for key in DataFrameDict.keys(): DataFrameDict[key] = data[:][data.Names.isin(key)] DataFrameDict[key] = DataFrameDict[key].sort_values(['Ob1']) #Add test calculated column for tbl in DataFrameDict: DataFrameDict[tbl]['Test'] = DataFrameDict[tbl].apply(points, axis=1) DataFrameDict[('player1', 'player2')].head() Names Ob1 Ob2 Ob3 Test 351 player2 0.035362 0.013509 0.384273 0.0 630 player1 0.062636 0.305047 0.571550 0.0 561 player2 0.133461 0.758194 0.964210 0.0 211 player2 0.216897 0.056877 0.417333 0.0 631 player2 0.241902 0.557987 0.983555 0.0 </code></pre> 接下来，我们将执行您在摘要中所做的操作，并获取测试列的总和，这将是player1和player2生成的分数 <pre><code>DataFrameDict[('player1', 'player2')]['Test'].sum() 8.077455441105938 </code></pre> 所以我们得到了8.0774。现在如果我说的是真的，如果我们在Edit2中编写代码，那么player1和player2之间的分数将是8.077。在 <pre><code>data['test'] = np.where(data['Ob2'] > 0.5, np.where(data['Ob3'] - data['Ob1'] < 0.1, 1 - (data['Ob3'] - data['Ob1']), 0), 0) def ScoreAndCount(row): score = row.sum() count = row.astype(bool).sum() return score, count df = data.groupby('Names')['test'].apply(ScoreAndCount).reset_index() df = pd.concat([df['Names'], df.test.apply(pd.Series).rename(columns = {0: 'Score', 1:'Count'})], axis = 1) summary = pd.DataFrame(itertools.combinations(data.Names.unique(), 2), columns = ['Player1', 'Player2']) summary = summary.merge(df, left_on = 'Player1', right_on = 'Names')\ .merge(df, left_on = 'Player2', right_on = 'Names')\ .drop(columns = ['Names_x', 'Names_y']) summary['Score'] = summary['Score_x'] + summary['Score_y'] summary['Count'] = summary['Count_x'] + summary['Count_y'] summary.drop(columns = ['Score_x','Count_x', 'Score_y','Count_y'], inplace = True) summary = summary.sort_values('Score', ascending = False) </code></pre> 现在我们将使用player1和player2检查行 <pre><code>summary[(summary['Player1'] == 'player1')&(summary['Player2'] == 'player2')] Player1 Player2 Score Count 0 player1 player2 8.077455 6.0 </code></pre> 如您所见，我通过edit2从player1player2计算出的分数与您在代码中所做的完全相同。在

Python，迭代和修改df字典中的数据帧

1 个回答

相关Python问题