2024-06-28 19:46:17 发布
网友
我目前正在为一个类项目开发imdb5000电影数据集。预算变量有很多零值。你知道吗
它们缺少条目。我不能放弃它们,因为它们占我全部数据的22%。你知道吗
我应该在Python中做什么?有人建议你去吗?你能提供更多细节吗?你知道吗
有几个选择。你知道吗
我认为根据你所做的分析,找出电影的实际预算,并用实际预算取代糟糕的分项预算将是一个不错的选择。你可以取预算中每个特征列的中位数或平均值,使之成为电影预算的百分比,然后用中位数占预算的百分比填充0。如果非零演员工资列的中值为预算/演员工资=60%,则可以选择将该电影预算的60%填入零值的演员工资列。
硬选项创建一个函数,该函数接受电影预算的非零值,并尝试根据表中的其他电影数据对电影预算进行插值。这个选项更像它自己的项目,应该首先尝试上面的选项。
有几个选择。你知道吗
我认为根据你所做的分析,找出电影的实际预算,并用实际预算取代糟糕的分项预算将是一个不错的选择。你可以取预算中每个特征列的中位数或平均值,使之成为电影预算的百分比,然后用中位数占预算的百分比填充0。如果非零演员工资列的中值为预算/演员工资=60%,则可以选择将该电影预算的60%填入零值的演员工资列。
硬选项创建一个函数,该函数接受电影预算的非零值,并尝试根据表中的其他电影数据对电影预算进行插值。这个选项更像它自己的项目,应该首先尝试上面的选项。
相关问题 更多 >
编程相关推荐