2024-09-19 20:36:26 发布
网友
我是tf的初学者,所以,请原谅我
我有一个包含动作、上下文描述符和分数(奖励)的数据集。我试图训练一个模型,预测给定环境下的最佳行动(由分数定义)
数据如下所示:
行动(标签);语境特征1;语境特征2;语境特征3;得分(奖励)
我知道这看起来像强化学习的问题,但我读到强化学习不使用任何数据库
我尝试了自定义损失函数,包括奖励和最小化的优化,但似乎没有工作
谢谢你的回答
杰拉德
目前没有回答
目前没有回答
相关问题 更多 >
编程相关推荐