Python，迭代和修改df字典中的数据帧问题的回答

Python，迭代和修改df字典中的数据帧

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

来自C的背景（几年前），而且对Python非常陌生，我正在努力优化我的代码。从字面上讲，for循环非常慢。在 在下面的代码中，向Dict中的每个数据帧添加计算列的循环似乎是一个巨大的瓶颈。在 我已经读了很多关于解决这个问题的方法，比如；<a href="https://engineering.upside.com/a-beginners-guide-to-optimizing-pandas-code-for-speed-c09ef2c6a4d6" rel="nofollow noreferrer">Vectorisation</a>和<a href="https://towardsdatascience.com/speed-up-your-algorithms-part-2-numba-293e554c5cc1" rel="nofollow noreferrer">Numba</a>，但我认为我对Python了解不够，无法真正理解和使用它们。在 事实上，我对这两种方法的尝试都失败了，可能是不正确的实现，除了我用过的一个测试np.哪里. 这向我展示了我的for循环/计算有多糟糕。在 我将在我的工作示例中省略这些尝试，但如果需要，可以在以后添加： <pre><code>import pandas as pd import numpy as np import datetime as date import itertools def points(row): val = 0 if row['Ob2'] > 0.5: foo = row['Ob3'] - row['Ob1'] if foo < 0.1: val = 1 - foo else: val = 0 return val print("Start: "+ str(date.datetime.now())) print() player_list = ['player' + str(x) for x in range(1,71)] data = pd.DataFrame({'Names': player_list*1000,\ 'Ob1' : np.random.rand(70000),\ 'Ob2' : np.random.rand(70000) ,\ 'Ob3' : np.random.rand(70000)}) #create list of unique pairs comboNames = list(itertools.combinations(data.Names.unique(), 2)) #create a data frame dictionary to store your data frames DataFrameDict = {elem : pd.DataFrame for elem in comboNames} for key in DataFrameDict.keys(): DataFrameDict[key] = data[:][data.Names.isin(key)] DataFrameDict[key] = DataFrameDict[key].sort_values(['Ob1']) print("DF fill: "+ str(date.datetime.now())) print() #Add test calculated column for tbl in DataFrameDict: DataFrameDict[tbl]['Test'] = DataFrameDict[tbl].apply(points, axis=1) #Slow loop #example vectorised, hugh dif is run time #DataFrameDict[tbl]['Test'] = np.where((DataFrameDict[tbl]['Ob2']>0.5),1,0) print("Calc'd: "+ str(date.datetime.now())) print() headers = ['Player1','Player2','Score','Count'] summary = pd.DataFrame(([tbl[0], tbl[1], DataFrameDict[tbl]['Test'].sum(), DataFrameDict[tbl]['Test'].astype(bool).sum(axis=0)] for tbl in DataFrameDict), columns=headers).sort_values(['Score'], ascending=[False]) print("Fin: "+ str(date.datetime.now())) print() </code></pre> 编辑：该函数添加一列，该列是每个df中两个“players”的比较，因此我们/我无法将其应用于源数据源。很抱歉没有说清楚。 显然，我需要回溯并学习一些Python基础知识，但是我的老板正在等待真正的脚本，它花了3个小时运行一个标准的500个“名称”（125K个数据帧）。在 如果有人能帮我优化它，我将不胜感激！在 EDIT2：更好地表示现实世界中的问题 ^{pr2}$ 我的<a href="https://stackoverflow.com/a/55671862/5608428">Solution</a>由于混乱，不想在这里发帖。在

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

Python，迭代和修改df字典中的数据帧

1 个回答

相关Python问题