Python中文
首页
教程
问答
标签
搜索
登录
注册
仅在组中删除重复项
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我只想从数据帧中删除特定子集中的重复项。在“A”列中的每个“spec”下,我想删除重复项,但我想在整个数据帧中保留重复项(第一个“spec”下可能有一些行与第二个“spec”下的行相同,但在“spec”下,直到下一个“spec”下我想删除重复项)</p> <p>这是数据帧</p> <p>测向</p> <pre><code> A B C spec first second test text1 text2 act text12 text13 act text14 text15 test text32 text33 act text34 text35 test text85 text86 act text87 text88 test text1 text2 act text12 text13 act text14 text15 test text85 text86 act text87 text88 spec third fourth test text1 text2 act text12 text13 act text14 text15 test text85 text86 act text87 text88 test text1 text2 act text12 text13 act text14 text15 test text85 text86 act text87 text88 </code></pre> <p>这就是我想要的:</p> <p>测向</p> <pre><code> A B C spec first second test text1 text2 act text12 text13 act text14 text15 test text32 text33 act text34 text35 test text85 text86 act text87 text88 spec third fourth test text1 text2 act text12 text13 act text14 text15 test text85 text86 act text87 text88 </code></pre> <p>我可以将数据帧拆分为“小”数据帧,然后在for-loop中删除每个“小”数据帧的副本,最后将它们连接起来,但我想知道是否还有其他解决方案。你知道吗</p> <p>我也试过,成功了:</p> <pre><code>dfList = df.index[df["A"] == "spec"].tolist() dfList = np.asarray(dfList) for dfL in dfList: idx = np.where(dfList == dfL) if idx[0][0]!=(len(dfList)-1): df.loc[dfList[idx[0][0]]:dfList[idx[0][0]+1]-1] = df.loc[dfList[idx[0][0]]:dfList[idx[0][0]+1]-1].drop_duplicates() else: df.loc[dfList[idx[0][0]]:] = df.loc[dfList[idx[0][0]]:].drop_duplicates() </code></pre> <p>编辑: 我必须在结尾加上:</p> <blockquote> <p>df.dropna(how='all', inplace=True)</p> </blockquote> <p>但我只是想知道有没有别的解决办法。你知道吗</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>这应该起作用:</p> <pre><code>df2 = df.drop_duplicates(subset=['A', 'B','C']) </code></pre>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
(编辑)背景2+均值漂移跟踪?
1 回答
(网络爬虫)如何从新闻网站获取新闻段落的文本
10 回答
(置换)列表的唯一组合
7 回答
(美丽的soap4,)AttributeError:“非类型”对象没有属性“获取文本”
6 回答
(聊天室)使用套接字通常只允许一个地址(协议/网络地址/端口)
1 回答
(自动)在Pycharm/Python中的=后缩进
6 回答
(自动Py到Exe和Python)找不到“googleapipythonclient”发行版,该发行版是应用程序所必需的
6 回答
(自动操作)write()和do for循环的Odoo问题
7 回答
(自定义)百分位MSE损失函数
5 回答
(自定义用户)createsuperuser TypeError:hasattr():属性名必须是字符串
10 回答
(节点)警告:检测到可能的EventEmitter内存泄漏。添加了11个消息侦听器。使用emitter.setMaxListeners()增加limi
3 回答
(若变量中有字符串)语句未筛选出数据
2 回答
(英语、Perl、Python、Ruby)在代码片段的基础上进行比较?
2 回答
(范围(1,36),7)和+条件下的所有组合
6 回答
(范围(3),范围(3))值错误:要解压缩的值太多(预期为2)
7 回答
(蟒蛇) 平均分配数字
10 回答
(行、列):数据帧的值
8 回答
(行、列)形式的最小值
3 回答
(解决)导入PYBID11/C++编译模块不工作
4 回答
(记忆有效)将“排序”作为生成器实现
2 回答