检查重复值并将信息拉入新的Datafram

2024-09-29 19:24:20 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一个数据帧（df\u data），有14列用于一个月的信息。我拿出一周的数据（df1），列出了那里所有的账号（accounts1）

我要做的是取accounts1列表，让它遍历列表中的每个值，检查它在df\u data中是否计数了不止一次，如果是，则将该帐号保存到一个新列表中，以便重复。你知道吗

然后我想把repeats列表从原始的dfu数据中提取出14列，这样我就可以得到每个帐号的14列的所有行。你知道吗

我被重复的帐号列表困住了，我使用了下面的代码，它似乎可以创建一个包含结果的列表

cnt = collections.Counter(accounts1)
repeats.append([k for k, v in cnt.items() if v > 1])
print((repeats).count)

但该列表中的元素数量正好在3000个以下。当我使用.unique并检查差异时，它应该略高于5000。我做错什么了？然后如何使用这些元素从原始数据帧中提取列？你知道吗

基本上说我有

accounts1 = df1['accntnum'] = [0,1,2,5,8,2,5,0,0,7]

我想让它循环，从dfu数据中取出每个重复，并返回一个类似的列表

repeats = [0, 2, 5, 7] 
(There are numbers in the monthly df_data that are in weekly df1 but may not be repeated there yet)

然后我想用这个列表从df_数据['accntnum']中提取

df_repeats = df_data[df_data['accntnum'] isin repeats]]

哦，还有，我真的只对第一次出现的重复感兴趣。不过，有一个日期和时间列可以帮助最终解决这些问题。提前谢谢！你知道吗

Tags：数据 in 信息元素 df 列表 data are

0条回答

目前没有回答