给定情境下最优得分(奖励)的行动分类

2024-09-19 20:36:26 发布

您现在位置:Python中文网/ 问答频道 /正文

我是tf的初学者,所以,请原谅我

我有一个包含动作、上下文描述符和分数(奖励)的数据集。我试图训练一个模型,预测给定环境下的最佳行动(由分数定义)

数据如下所示:

行动(标签);语境特征1;语境特征2;语境特征3;得分(奖励)

我知道这看起来像强化学习的问题,但我读到强化学习不使用任何数据库

我尝试了自定义损失函数,包括奖励和最小化的优化,但似乎没有工作

谢谢你的回答

杰拉德


Tags: 数据函数模型数据库定义环境tf特征