Python中文
首页
教程
问答
标签
搜索
登录
注册
避免迭代以获得大Pandas的发生次数
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我有两个数据帧,其中一个包含公共汽车站号列表,<code>df_stops</code>,另一个包含公共汽车到达,<code>df_arrivals</code>,(<code>StopNumber</code>和<code>OnTimeStatus</code>=<code>-1</code>,<code>0</code>,或<code>1</code>,分别对应于公共汽车是早、准时还是晚)。你知道吗</p> <p>我希望向<code>df_stops</code>数据帧添加3个新列:</p> <ol> <li><code>PercentEarly</code></li> <li><code>PercentOnTime</code></li> <li><code>PercentLate</code></li> </ol> <p>我很难弄清楚如何在不使用循环迭代的情况下实现这一点。如果我迭代地去做,我会按照以下的思路去做:</p> <pre><code>for row in df_stops: # number of early arrivals / total number of arrivals @ that stop row['PercentEarly'] = df_arrivals.loc[df_arrivals['StopNum'] == row['StopNum'] and df_arrivals['OnTimeStatus'] < 0].count() / df_arrivals.loc[df_arrivals['StopNum'] == row['StopNum']].count() # same idea for on time and late arrivals </code></pre> <p>一般来说,我对熊猫和数据科学还比较陌生,所以非常感谢您的帮助。你知道吗</p> <p><strong>如何在不迭代<code>df_stops</code>中的每一行的情况下执行此操作?</strong></p> <p>编辑:</p> <p><code>df_arrivals</code></p> <pre><code> RouteNumber ScheduledUnix StopNumber OnTimeStatus 0 44 1511977533 40888 0 1 44 1511979273 40888 0 2 44 1511979273 40888 0 3 44 1511980353 40888 0 4 44 1511979273 40888 0 5 44 1511980353 40888 1 ... ... ... ... ... 67538 85 1512005100 40900 0 67539 85 1512008700 40900 0 67540 85 1512008700 40900 -1 67541 85 1512008700 40900 0 67542 85 1512012300 40900 0 </code></pre> <p><code>df_stops</code>:</p> <pre><code> StopNumber 0 40877 1 40874 2 40876 3 40725 4 40875 5 40776 6 40730 7 40723 8 40721 9 40729 10 40722 </code></pre> <p>所需的输出类似于:</p> <pre><code> StopNumber EarlyPercent OnTimePercent LatePercent 0 40877 0.14 0.80 0.06 ... </code></pre>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>你可以使用groupby</p> <pre><code>for stops in df_arrivals.groupby('StopNum'): stop[1].groupby('OnTimeStatus').count() </code></pre> <p>它现在能像预期的那样工作吗?你知道吗</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
为什么在使用strptime时会出现未进行转换的数据错误?
6 回答
为什么在使用strptim时会出现这个datetime日期错误
4 回答
为什么在使用StyleFrame时索引列的标题不显示sf.至excel()?
7 回答
为什么在使用sum()函数时会发生“int”对象不可调用的错误?
8 回答
为什么在使用sympy.dsolve时会得到“'list'对象没有属性'func'”?
8 回答
为什么在使用tabla时会得到一个空的数据帧?
5 回答
为什么在使用tensorboard时需要add_graph()的第二个参数?
9 回答
为什么在使用TensorFlow Lite转换YOLOv4时,推断时间/大小没有改进?有什么可能的改进吗?
3 回答
为什么在使用Tensorflow加载训练批时会出现内存泄漏?
3 回答
为什么在使用tensorflow时会收到警告/错误(使用函数API,但未实现错误)
10 回答
为什么在使用tetpyclient发出POST请求时出现403错误?
7 回答
为什么在使用TextBlob时会出现HTTP错误?
8 回答
为什么在使用TFIDF时出现错误“IndexError:list index out of range”pyspark.ml.feature?
5 回答
为什么在使用timedelta格式化之后,我在python中的日期是错误的?
9 回答
为什么在使用timeit或exec函数时,函数中的变量不会在提供的全局命名空间中搜索?
2 回答
为什么在使用tkinter时不能使用复选框?
2 回答
为什么在使用todoistpythonapi时会返回这个奇怪的ID?
2 回答
为什么在使用TQM时,在调整图像大小时,处理时间会有很大的差异?
10 回答
为什么在使用Tweepy下载用户时间线时收到错误消息
2 回答
为什么在使用twitter帐户登录Django应用程序时重定向127.0.0.1:8000?
9 回答