代理不停地重复相同的动作循环,Q学习如何防止代理不停地重复相同的动作循环 当然,随着奖励制度的改变。但是,您是否可以遵循或尝试在代码中包含一些一般规则来防止此类问题 更准确地说,我的实际问题是: 我想教一个安用Q-Learning学习 ...2024-09-28 已阅读: n次
对于强化学习模型的实施,培训和评估的奖励制度是否会有所不同?我试图创建一个强化学习模型,用于基于公司财务状况对公司进行估值。在评估中,我将使用财务趋势来奖励代理人。在培训期间,我想奖励实际股价上涨的员工,比如说,在季度末提高估值(又名股价)。我可以这样做吗?i ...2024-09-28 已阅读: n次
跟踪用户的习惯和活动?姜几个月前我在做一个项目,需要实施一个奖励制度。类似于StackOverflow的徽章系统。Badges 我可能没有以最好的方式来实施它,我很好奇你在其中会说些什么。在 对于徽章授予,什么是跟踪用户活 ...2024-09-28 已阅读: n次