如何基于记录中其他4个字段上的布尔运算符有效地更新数据帧中的字段？问题的回答

如何基于记录中其他4个字段上的布尔运算符有效地更新数据帧中的字段？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我正在分析和总结一个数据集（“theReport”），作为一个Python数据框架。该表显示了4个不同数据集（“输入”应在同一个键上匹配）之间的匹配过程的结果。你知道吗 在报告中，每个输入都有一个字段，其计数器与基本数据集的匹配数（&gt；=0）。我想更新报表中的一个字段，以指示有多少数据集与基础数据匹配（“matchCounter”），因此对于任何数量的成功匹配（即&gt；0），matchCounter应该以1递增，最多4个（即所有四个数据集都与基础数据匹配）。你知道吗 我在Jupyter笔记本中开发了这个过程，这个过程是在一个大约10万条记录的小数据集上进行的，虽然我成功地更新了matchCounter字段，但我怀疑它花费的时间比应该的要长。完整的数据集是10000条记录，根据我的粗略计算，用我当前的代码（我认为这是一个非常简单的操作）完成这项工作需要8个多小时。你知道吗 我已经读了一些关于提高数据帧（<a href="https://stackoverflow.com/questions/22084338/pandas-dataframe-performance">Pandas DataFrame performance</a>）性能的内容，但是由于我是按顺序迭代行，并且if语句是在行中的项上测试的，而不是在数据帧上测试的，所以我不知道这是否适用。你知道吗 下面是代码的摘要版本。第一个for循环是导致瓶颈的循环： <pre><code>import numpy as np import pandas as pd df = pd.read_csv(fileIn, header=0) df['match_count']= 0 df['exclude']= False # This for loop takes 300+ seconds to execute 100'000 times for index, row in df.iterrows(): matchCounter = 0 if row['in_deeds'] > 0: matchCounter += 1 if row['in_valuation'] > 0: matchCounter += 1 if row['in_property'] > 0: matchCounter += 1 if row['in_sg'] > 0: matchCounter += 1 df.loc[index,'match_count'] = matchCounter # This for loop takes only 11.75 seconds i=0 for index, row in df.iterrows(): if "EXCL" in row['stat_deeds'].upper(): i=i+1 df.loc[index,'exclude']=True elif "EXCL" in row['stat_valuation'].upper(): i=i+1 df.loc[index,'exclude']=True elif "EXCL" in row['stat_property'].upper(): i=i+1 df.loc[index,'exclude']=True elif "EXCL" in row['stat_sg'].upper(): i=i+1 df.loc[index,'exclude']=True df = df.query('exclude == False') </code></pre> 这是我第一次和熊猫一起工作，我也是Python的初学者，所以我想我犯了一个愚蠢的错误。但我也不确定我的期望是否是错误的，这只是我应该期望的表现。有更好的办法吗？即使有人能给我指出正确的方向，我也会很感激的！你知道吗

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

在过去的数据帧迭代中，我也遇到过类似的问题-<a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iterrows.html" rel="nofollow noreferrer">^{<cd1>}</a>乍一看似乎是正确的选择，因为它易于使用，但是它的方便是有代价的。这里的<a href="https://medium.com/@rtjeannier/pandas-101-cont-9d061cb73bfc" rel="nofollow noreferrer">a helpful blog</a>概述了pandas中的方法，以提高迭代效率。你知道吗 结果是-不要使用<code>iterrows</code>。一般来说，可以使用索引作为迭代器，然后使用<code>df.loc</code>或<code>df.iloc</code>访问数据帧的行，如下所示： <pre><code>for i in df.index: print(df.loc[i, :]) </code></pre> <h2>使用<code>df.apply</code></h2> <code>apply</code>方法允许您将用户定义的函数应用于数据帧的所有列或行。虽然这里的用法可能有些不直观，但它是迄今为止最快的： <pre><code>import numpy as np import pandas as pd def counter(row): if np.any(row[row > 0]): return np.sum(row[row > 0]) else: return 0 N = 100000 df = pd.DataFrame({'A': np.random.randint(0, 2, N), 'B': np.random.randint(0, 2, N), 'C': np.random.randint(0, 2, N), 'D': np.random.randint(0, 2, N)}) df['match-count'] = df.apply(counter, axis=1, raw=True) </code></pre> 这里，函数将检查数据帧的每一行（由<code>axis=1</code>指定）；<code>np.any</code>返回<code>True</code>如果布尔选择<code>row[row > 0]</code>不是空的，此时布尔选择用<code>np.sum</code>减少以获得最终计数。我们将<code>raw</code>关键字参数设置为<code>True</code>，以便传递原始的<code>numpy</code>数组，该数组应用于减少操作（如sum）以提高性能（请参见<a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html" rel="nofollow noreferrer">docs</a>）。你知道吗 在我的机器上运行大约需要1.2秒。你知道吗 <h2>编辑</h2> Gio的回答显示了一个原则，我认为这是使用pandas时的一个很好的实践——如果存在可以直接对数据帧进行操作的方法（例如<code>sum</code>，<code>cumsum</code>），那么尝试使用这些方法，因为它们总是会更快。你知道吗 在这样的方法不存在的地方，<code>df.apply</code>如果指定要应用的更复杂的操作，那么它会很有用-这只是未来的一个提示！你知道吗 <h2>编辑II</h2> 上面带有apply的示例假设dataframe中的所有列都用于布尔选择。如果只有特定列具有需要用于计数器的数值，请在<code>counter</code>方法中使用Gio的建议： <pre><code>def counter(row): selection = row[['in_deeds', 'in_valuation', 'in_property', 'in_sg']] > 0 if np.any(selection): return np.sum(selection) else: return 0 </code></pre>

如何基于记录中其他4个字段上的布尔运算符有效地更新数据帧中的字段？

1 个回答

相关Python问题