我有以下数据:
Rank Platforms Technology
high Windows||Linux Unity
high Linux
low Windows Unreal
low Linux||MacOs GameMakerStudio||Unity||Unreal
low GameMakerStudio
Platforms
和Technology
都是分类变量。这里的问题是它们可以有一个,或者空,或者,特别是像GameMakerStudio||Unity||Unreal
这样的多个值。我正在建立一个逻辑回归模型来预测Rank
数据。你知道吗
我正在尝试为我的模型编码这些变量。但是,对于列表类型的分类值,我还没有找到任何解决方案。我阅读了这一页Encoding Categorical Variables,发现一个热编码是最密切相关的,但仍然没有解决我的问题。你知道吗
当然,我可以手动编码。例如,Platforms
列大约有7个不同的平台值,如果Platforms = Windows||Linux
,我可以设置2列is_windows = true
和is_linux = true
。但是对于Technology
列,有21个不同的值。你知道吗
有办法自动编码吗?你知道吗
你从来没提过熊猫,但我猜你用的就是熊猫。如果是这样的话,你提到的链接会有这样的回应:
get_dummies
相关问题 更多 >
编程相关推荐