Pandas:获取重复索引

import pandas as pd wget https://www.dropbox.com/s/vmimze2g4lt4ud3/alt_exon_repeatmasker_intersect.bed alt_exon_repeatmasker = pd.read_table('alt_exon_repeatmasker_intersect.bed', header=None, index_col=3) In [74]: alt_exon_repeatmasker.index.is_unique Out[74]: False

3条回答

网友

1楼 · 编辑于 2024-09-25 12:33:54

df.groupby(level=0).filter(lambda x: len(x) > 1)['type']

我们为这种操作添加了filter方法。您也可以使用掩蔽和转换来获得等效的结果，但这样做速度更快，可读性也更高一些。

重要：

0.12版引入了filter方法，但它无法处理索引不一致的数据帧/序列。这个问题——以及与系列中transform相关的一个问题——已经在0.13版本中修复，该版本现在应该随时发布。

显然，非均匀性指数是这个问题的核心，所以我应该指出，这种方法在熊猫0.13之前不会有帮助。与此同时，transform解决办法是一条路。请注意，如果在具有非均匀索引的序列上尝试此操作，它也将失败。

没有理由不将filter和transform应用于非均匀索引；它最初的实现很差。

网友

2楼 · 编辑于 2024-09-25 12:33:54

更快更好：

df.index.get_duplicates()

网友

3楼 · 编辑于 2024-09-25 12:33:54

同样有用且非常简洁：

df[df.index.duplicated()]

注意，这只返回一个重复行，因此要查看所有重复行，您需要：

df[df.index.duplicated(keep=False)]

相关问题更多 >

编程相关推荐

热门问题

热门文章