使用groupby将重复值替换为NaN问题的回答

使用groupby将重复值替换为NaN

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

数据集（MWE） <pre><code>location date people_vaccinated people_fully_vaccinated people_vaccinated_per_hundred AL 12-01-2021 70861 7270 1.45 AL 13-01-2021 74792 9245 1.53 AL 14-01-2021 80480 11366 1.64 AL 15-01-2021 86956 13488 1.77 AL 16-01-2021 93797 14202 1.91 AL 17-01-2021 100638 14917 2.05 AS 22-01-2021 5627 940 10.1 AS 23-01-2021 5881 948 10.56 AS 24-01-2021 7096 948 12.74 AS 25-01-2021 7096 949 12.98 AS 26-01-2021 7230 950 13.23 AS 27-01-2021 8133 950 14.6 </code></pre> 我试图在<code>location</code>上使用<code>groupby()</code>时用NaN替换{{{<cd1>}列中的重复项。我在网上尝试了一些解决方案，但无法让它们为我工作，所以使用了下面的逻辑 <pre><code>def remove(df , a): df['duplicate'] = df[a].shift(1) df[a] = df.apply(lambda x: np.nan if x[a] == x['duplicate'] \ else x[a], axis=1) df = df.drop('duplicate', axis=1) return df dfn = remove(dfn,'people_vaccinated') dfn = remove(dfn,'people_fully_vaccinated') dfn = remove(dfn,'people_vaccinated_per_hundred') </code></pre> 当您有连续的空值（超过2）时，上述逻辑将失败。我需要用NAN替换重复项（同时保留第一个实例）。最好的方法是什么？您可以从上面的代码片段中观察到<code>people_fully_vaccinated</code>列具有重复的值 样本输出 <pre><code>location date people_vaccinated people_fully_vaccinated people_vaccinated_per_hundred AL 12-01-2021 70861 7270 1.45 AL 13-01-2021 74792 9245 1.53 AL 14-01-2021 80480 11366 1.64 AL 15-01-2021 86956 13488 1.77 AL 16-01-2021 93797 14202 1.91 AL 17-01-2021 100638 14917 2.05 AS 22-01-2021 5627 940 10.1 AS 23-01-2021 5881 948 10.56 AS 24-01-2021 7096 NaN 12.74 AS 25-01-2021 NaN 949 12.98 AS 26-01-2021 7230 950 13.23 AS 27-01-2021 8133 NaN 14.6 </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

使用groupby将重复值替换为NaN

1 个回答

相关Python问题