在数据帧上使用groupby和lambda函数时保留NaN值问题的回答

在数据帧上使用groupby和lambda函数时保留NaN值

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

从这个<a href="https://stackoverflow.com/questions/62996233/transforming-multiple-observational-feature-to-single-observational-feature-in-p">question</a>开始，我有一个这样的数据集： <pre><code> ChildID MotherID preDiabetes 0 20 455 No 1 20 455 Not documented 2 13 102 NaN 3 13 102 Yes 4 702 946 No 5 82 571 No 6 82 571 Yes 7 82 571 Not documented 8 60 530 NaN </code></pre> 我将其转换为以下内容，以便每位母亲对糖尿病前期有一个单一的值： <pre><code> ChildID MotherID preDiabetes 0 20 455 No 1 13 102 Yes 2 702 946 No 3 82 571 Yes 4 60 530 No </code></pre> 我通过应用以下逻辑实现了这一点： <ul> <li>如果某个特定的MotherID的preDiabetes==“Yes”，则不管剩余的观察结果如何，都为preDiabetes指定一个值“Yes”</li> <li>否则，如果糖尿病前期！=“是”对于特定的MotherID，我将为preDiabetes指定一个值“否”</li> </ul> 然而，在再次思考这一点之后，我意识到我应该保留NaN值，以便稍后对其进行插补，而不仅仅是将其指定为“否”。因此，我应该将我的逻辑编辑为： <ul> <li>如果某个特定的MotherID的preDiabetes==“Yes”，则不管剩余的观察结果如何，都为preDiabetes指定一个值“Yes”</li> <li>否则，如果特定MotherID的preDiabetes==NaN的all值，则为preDiabetes分配一个NaN值</li> <li>else assign预设定值为“否”</li> </ul> 因此，在上表中，MotherID=530的值应为NaN，如： <pre><code> ChildID MotherID preDiabetes 0 20 455 No 1 13 102 Yes 2 702 946 No 3 82 571 Yes 4 60 530 NaN </code></pre> 我尝试使用以下代码行执行此操作： <pre class="lang-py prettyprint-override"><code> df=df.groupby(['MotherID', 'ChildID'])['preDiabetes'].apply( lambda x: 'Yes' if 'Yes' in x.values else (np.NaN if np.NaN in x.values.all() else 'No')) </code></pre> 但是，运行这行代码会导致以下错误： TypeError:'in'需要字符串作为左操作数，而不是浮点运算 如果你们能指出我做错了什么，我将不胜感激。谢谢

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

在数据帧上使用groupby和lambda函数时保留NaN值

1 个回答

相关Python问题