如何删除数据帧（Python）中完成率较低的某些特性问题的回答

如何删除数据帧（Python）中完成率较低的某些特性

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有一个超过450个变量和超过500000行的数据帧。但是，有些变量有空值90%以上。我想删除超过&gt；90%空行 我描述了我的变量： 数据帧： <pre><code>df = pd.DataFrame({ 'A':list('abcdefghij'), 'B':[4,np.nan,np.nan,np.nan,np.nan,np.nan, np.nan, np.nan, np.nan, np.nan], 'C':[7,8,np.nan,4,2,3,6,5, 4, 6], 'D':[1,3,5,np.nan,1,0,10,7, np.nan, 5], 'E':[5,3,6,9,2,4,7,3, 5, 9], 'F':list('aaabbbckfr'), 'G':[np.nan,8,np.nan,np.nan,np.nan,np.nan,np.nan,np.nan, np.nan, np.nan]}) print(df) A B C D E F G 0 a 4.0 7 1 5 a NaN 1 b NaN 8 3 3 a 8.0 2 c NaN NaN 5 6 a NaN 3 d NaN 4 NaN 9 b NaN 4 e NaN 2 1 2 b NaN 5 f NaN 3 0 4 b NaN 6 g NaN 6 10 7 c NaN 7 h NaN 5 7 3 k NaN 8 i NaN 4 NaN 5 f NaN 9 j NaN 6 5 9 r NaN </code></pre> 描述： <pre><code>desc = df.describe(include = 'all') d1 = desc.loc['varType'] = desc.dtypes d3 = desc.loc['rowsNull'] = df.isnull().sum() d4 = desc.loc['%rowsNull'] = round((d3/len(df))*100, 2) print(desc) A B C D E F G count 10 1 10 10 10 10 1 unique 10 NaN NaN NaN NaN 6 NaN top i NaN NaN NaN NaN b NaN freq 1 NaN NaN NaN NaN 3 NaN mean NaN 4 5.4 4.3 5.3 NaN 8 std NaN NaN 2.22111 3.16403 2.45176 NaN NaN min NaN 4 2 0 2 NaN 8 25% NaN 4 4 1.5 3.25 NaN 8 50% NaN 4 5.5 4.5 5 NaN 8 75% NaN 4 6.75 6.5 6.75 NaN 8 max NaN 4 9 10 9 NaN 8 varType object float64 float64 float64 float64 object float64 rowsNull 0 9 1 2 0 0 9 %rowsNull 0 90 10 20 0 0 90 </code></pre> 在这个例子中，我们只有两个特性来删除“B”和“G”。但在我的例子中，我发现了40个变量的“%rowsnll”大于&gt；90%，我怎么能不考虑这些变量在我的建模 我不知道怎么做 请帮帮我 谢谢

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

如何删除数据帧（Python）中完成率较低的某些特性

1 个回答

相关Python问题