擅长:python、mysql、java
<p>数据非常简单。如果你参加一个kaggle竞赛,那么可解释性也不是一个大问题,只有准确性,你可以使用任何复杂的模型并获得好的结果。然而,如果我想要解释性,那么我将使用深度不超过4的决策树。减小深度,您将看到更通用的决策树。它会让你对数据有很好的了解</p>
<p>有些建议可以是:</p>
<ol>
<li>删除所有的日、月列,这些信息已经存储在Day of year属性中(leap yrs实际上没有那么大的问题)</李>
<li>只剩下三列:年、站和一年中的某一天</李>
<li>查看年份列是否重要(决策树的重要决策出现在前2-3个深度),如果不重要,可以删除它。在现实世界中,变化更不可预测,模型越是广义化,它就越好。车站和日期是重要的考虑因素,不可忽视</李>
</ol>
<p>然后检查复杂的模型,它们是否提高了您的准确性?他们可能会</p>
<p>如果他们真的这样做了,那么就使用它们,或者使用更简单的模型,因为它们具有更高的可解释性,更快的计算时间</p>