避免迭代以获得大Pandas的发生次数问题的回答

避免迭代以获得大Pandas的发生次数

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有两个数据帧，其中一个包含公共汽车站号列表，<code>df_stops</code>，另一个包含公共汽车到达，<code>df_arrivals</code>，（<code>StopNumber</code>和<code>OnTimeStatus</code>=<code>-1</code>，<code>0</code>，或<code>1</code>，分别对应于公共汽车是早、准时还是晚）。你知道吗 我希望向<code>df_stops</code>数据帧添加3个新列： <ol> <li><code>PercentEarly</code></li> <li><code>PercentOnTime</code></li> <li><code>PercentLate</code></li> </ol> 我很难弄清楚如何在不使用循环迭代的情况下实现这一点。如果我迭代地去做，我会按照以下的思路去做： <pre><code>for row in df_stops: # number of early arrivals / total number of arrivals @ that stop row['PercentEarly'] = df_arrivals.loc[df_arrivals['StopNum'] == row['StopNum'] and df_arrivals['OnTimeStatus'] < 0].count() / df_arrivals.loc[df_arrivals['StopNum'] == row['StopNum']].count() # same idea for on time and late arrivals </code></pre> 一般来说，我对熊猫和数据科学还比较陌生，所以非常感谢您的帮助。你知道吗 如何在不迭代<code>df_stops</code>中的每一行的情况下执行此操作？ 编辑： <code>df_arrivals</code> <pre><code> RouteNumber ScheduledUnix StopNumber OnTimeStatus 0 44 1511977533 40888 0 1 44 1511979273 40888 0 2 44 1511979273 40888 0 3 44 1511980353 40888 0 4 44 1511979273 40888 0 5 44 1511980353 40888 1 ... ... ... ... ... 67538 85 1512005100 40900 0 67539 85 1512008700 40900 0 67540 85 1512008700 40900 -1 67541 85 1512008700 40900 0 67542 85 1512012300 40900 0 </code></pre> <code>df_stops</code>： <pre><code> StopNumber 0 40877 1 40874 2 40876 3 40725 4 40875 5 40776 6 40730 7 40723 8 40721 9 40729 10 40722 </code></pre> 所需的输出类似于： <pre><code> StopNumber EarlyPercent OnTimePercent LatePercent 0 40877 0.14 0.80 0.06 ... </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

避免迭代以获得大Pandas的发生次数

1 个回答

相关Python问题