Python中文
首页
教程
问答
标签
搜索
登录
注册
高基数d的挑战
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p><strong>背景</strong>:我正在将票务系统数据中的数据分类为失败或成功的请求。请求在完成之前要经过不同的阶段。在标记为完成之前,每个请求都被分配给不同的团队和个人。 这些预测被标记为“我想在x成功之前创建一个完整的历史数据”。在</p> <p>在各种特征中,记录工作人员的姓名和团队名称是分析这些数据的重要因素。作为一个庞大的组织,我希望每天都有5-10个新名字被加入。在</p> <p><strong>历史数据</strong></p> <p>60k记录(用于培训、验证和测试) 有10k个唯一的名字</p> <p><strong>当前数据</strong> 总记录1k -有200个人的名字</p> <p>我正面临着一个挑战,因为高基数的数据,像个人姓名的数量是不固定的,并继续增长。 1在进行实际预测时遇到的挑战-当前数据的列数每次都会不同,并且永远不会与训练数据的特征长度匹配。 -所以每次我都要训练我的模型,我要做预测。 2数据准备时的挑战-以上也对数据准备提出了挑战,因为现在我总是要对完整的数据和查询编码的数据进行编码,以分割成当前和未来的数据。在</p> <p>抱歉,说来话长。在</p> <p>我在找什么?</strong></p> <p>有更好的方法吗? 这些不断变化的高维度是一种痛苦。有什么建议可以帮我处理,避免每次训练?在</p> <p>注意:我试过用PCA和自动编码器来处理暗红色。(对于高度不平衡的数据集,结果并不理想,因此我只处理高维数据)</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>您可以使用标准标记替换数据中的所有标识号和名称,例如<code><ID></code>或<code><NAME></code>。这应该在预处理期间完成。接下来你应该选择一个固定的词汇。就像所有在训练数据中至少出现5次的单词一样。在</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何在python中从数据帧列中删除分类值?
8 回答
如何在python中从数据帧列表中删除引号
4 回答
如何在python中从数据帧创建列表
6 回答
如何在Python中从数据帧创建嵌套的JSON
8 回答
如何在Python中从数据帧显示wordcloud
5 回答
如何在Python中从数据帧的时间戳中删除字符
9 回答
如何在Python中从数据帧绘制简单绘图?
3 回答
如何在python中从数据帧行提取具有特定长度的范围?
8 回答
如何在python中从数据帧设置dict中的值
4 回答
如何在Python中从数据库中获得一个结果
4 回答
如何在python中从数据框中绘制分类条形图
1 回答
如何在Python中从数据框中选择特定细节?
1 回答
如何在python中从数据集中删除unicode
5 回答
如何在python中从数据集中删除某些数值?
6 回答
如何在python中从数据集中选择行
9 回答
如何在Python中从数组中删除元素
6 回答
如何在python中从数组中删除单个倒逗号?
1 回答
如何在python中从数组中删除对象?
7 回答
如何在python中从数组中删除引号
6 回答
如何在python中从数组中删除所有最小值
6 回答