给定情境下最优得分（奖励）的行动分类 - 问答 - Python中文网

给定情境下最优得分（奖励）的行动分类

2024-09-19 20:36:26 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我是tf的初学者，所以，请原谅我

我有一个包含动作、上下文描述符和分数（奖励）的数据集。我试图训练一个模型，预测给定环境下的最佳行动（由分数定义）

数据如下所示：

行动（标签）；语境特征1；语境特征2；语境特征3；得分（奖励）

我知道这看起来像强化学习的问题，但我读到强化学习不使用任何数据库

我尝试了自定义损失函数，包括奖励和最小化的优化，但似乎没有工作

谢谢你的回答

杰拉德

Tags：数据函数模型数据库定义环境 tf 特征

0条回答

目前没有回答

相关问题更多 >

编程相关推荐

热门问题

热门文章