缺少大量零值的数据集。我该怎么办?

2024-06-28 19:46:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我目前正在为一个类项目开发imdb5000电影数据集。预算变量有很多零值。你知道吗

它们缺少条目。我不能放弃它们,因为它们占我全部数据的22%。你知道吗

我应该在Python中做什么?有人建议你去吗?你能提供更多细节吗?你知道吗


Tags: 数据项目电影条目细节建议零值imdb5000
1条回答
网友
1楼 · 发布于 2024-06-28 19:46:17

有几个选择。你知道吗

  • 取非零值的平均值,用平均值填充所有的零。这会产生“俗气”的结果,并不是最好的做法,一些离群值可能会抛开整体。你知道吗
  • 使用非零值的中值,也不是超级选项,但不太可能被异常值抛出。你知道吗
  • Binning会把预算的总和,比如说把电影分成一定数量的组,比如说预算超过或低于一百万,取平均预算,然后除以你想要的组数,然后使用根据平均值创建的间隔,如果他们属于组0,给他们一个零,如果组1,给他们一个1,等等
  • 我认为根据你所做的分析,找出电影的实际预算,并用实际预算取代糟糕的分项预算将是一个不错的选择。你可以取预算中每个特征列的中位数或平均值,使之成为电影预算的百分比,然后用中位数占预算的百分比填充0。如果非零演员工资列的中值为预算/演员工资=60%,则可以选择将该电影预算的60%填入零值的演员工资列。

  • 硬选项创建一个函数,该函数接受电影预算的非零值,并尝试根据表中的其他电影数据对电影预算进行插值。这个选项更像它自己的项目,应该首先尝试上面的选项。

相关问题 更多 >