Python中文
首页
教程
问答
标签
搜索
登录
注册
如果最新值代表当前值的某个百分比,则使用最新值的表
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我试图在海量数据集中找到某些ID和代码的值,我试图通过获取每个唯一对最近使用的值来获得这些值。我目前正在使用下面的代码获取最近使用的代码</p> <pre><code>data.head() ID Code value 15 13513 X2784 30.0 16 12665 X2744 65.0 17 16543 X2744 65.0 19 15761 X2100 29.0 21 14265 X2750 48.0 df = data.pivot_table(index='ID', columns='Code', values='value', aggfunc = 'first') df.head() ID X2784 X2744 X2100 X2750 13271 30.0 65.0 29.0 35.0 16343 30.0 65.0 29.0 35.0 19342 30.0 65.0 29.0 35.0 15437 30.0 65.0 29.0 35.0 14359 30.0 65.0 29.0 48.0 </code></pre> <p>问题在于,由于数据异常,其中一些值是错误的。我们的想法是查看最近的值,确定它是否代表该对所有值的某个百分比,然后分配它。问题的一个例子如下:</p> <pre><code>data[(data['ID'] == '14359') & (data['Code'] == 'X2750')]['value'].value_counts() 35.0 2530 48.0 2 </code></pre> <p>值29.0是最近发生的事件,但它发生的次数非常少,因此应将其视为异常。有没有办法将pivot_表aggfunc“first”与某种阈值结合起来</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>我可以使用aggfunc的lambda函数来计算它</p> <pre><code>aggfunc = lambda x: x.iloc[0] if x.value_counts()[x.iloc[0]]/x.value_counts().sum() > .25 else x.mode(dropna = False).iat[0] </code></pre> <p>谢谢大家的帮助</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何添加虚拟方法
8 回答
如何添加表示整数的擦边字符串?
10 回答
如何添加要在Bokeh中使用的新font.ttf文件?
9 回答
如何添加要显示的矩阵XY轴编号和XY轴
1 回答
如何添加计数?
2 回答
如何添加计数器函数?
7 回答
如何添加计数器列来计算数据帧中另一列中的特定值?
4 回答
如何添加计数器来跟踪while循环中的月份和年份?
10 回答
如何添加计数并删除countplot的顶部和右侧脊椎?
10 回答
如何添加计时器wx.应用程序更新窗口对象的主循环?
3 回答
如何添加评论到帖子?PostDetailVew,Django 2.1.5
4 回答
如何添加评论拉梅尔亚姆
5 回答
如何添加诸如矩阵Python/Pandas之类的数据帧?
7 回答
如何添加谷歌地点自动完成到Flask?
7 回答
如何添加超时、python discord bot
7 回答
如何添加超过1dp的检查
4 回答
如何添加距离方法
2 回答
如何添加跟随游戏的敌人精灵
10 回答
如何添加路径以便python可以找到程序?
9 回答
如何添加身份验证/安全性以使用happybase访问HBase?
6 回答