Python中文
首页
教程
问答
标签
搜索
登录
注册
机器学习中的数据编码
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p><a href="https://i.stack.imgur.com/658mY.png" rel="nofollow noreferrer">dataset image</a>我有一个交通数据集,它包含6个分类变量(即发送者、接收者、卡车名称、fromcity、tocity、vehicletype)和一个连续变量(即重量),我想预测销售量(这是连续变量)。我在数据集中有13000条记录。你知道吗</p> <p>我已经尝试过一种热编码,但是每个变量中有300多个类别,这意味着(300*6=1800个变量) 对列进行编码还是有其他解决方案?你知道吗</p> <p>在这里您可以看到示例数据集:</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>我建议你做以下事情:</p> <p>1-你需要找到相关性并决定需要哪些变量。这样您就可以删除像name这样的变量。因为他们对结果的贡献可能不大。只编码非常重要的变量。你知道吗</p> <p>2-尝试通过对值进行分组来创建新的变量,如车辆类型/城市,并减少唯一值,找出其是否重要。这样就可以使用新值而不是旧列。你知道吗</p> <p>3-尝试根据列中的值使用不同的编码,如序数编码。这可能有助于减少列数。你知道吗</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
pyVISA GPIB GET(组执行触发器)
6 回答
Pyvisa IOerror设备:Korad K3005d电源
10 回答
PyVISA mac OS X(山狮)安捷伦33250
5 回答
Pyvisa Pyusb无法加载大于1 MB的序列
1 回答
pyVisa RS232太慢
10 回答
PyVISA RS232超时错误(安捷伦电源)
7 回答
PyVISA SCPI命令和查询(值更新问题)
2 回答
PyVISA SerialInstrument需要硬重置才能在故障后连接
7 回答
pyvisa,未找到函数viOpen
9 回答
pyVISA:以编程方式将仪器返回到本地模式
6 回答
pyvisa:接口类型是什么意思?
1 回答
pyvisa.errors.VisaIOError:VI_ERROR_TMO(1073807339):操作完成前超时
6 回答
PyVisa“更复杂的示例”根本不运行Keithley 2400不理解的命令
5 回答
PyVisapy后端
3 回答
PyVISA不能写入超过7F的十六进制字符
9 回答
PYVISA中的ENUM模块和cStringIO模块
5 回答
PyVisa代码的图形用户界面
2 回答
Pyvisa使用按键电源超时
2 回答
PyVISA和Kethley 2701只能从一个通道获取结果
5 回答
PyVisa和Printing New D
7 回答