Python中文
首页
教程
问答
标签
搜索
登录
注册
如何用强化学习更新函数逼近中的权重?
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我的SARSA梯度下降,重量呈指数级上升。第17集第4集已经到了第4集</p> <pre><code>Exception: Qa is nan </code></pre> <p>例如:</p> ^{pr2}$ <p>我不知道该去哪里找我犯的错误。 以下是一些代码:</p> <pre><code>def getTheta(self, reward, Qa, QaNext): """ let t = r + yQw(s',a') - Qw(s,a) """ theta = reward + (self.gamma * QaNext) - Qa def updateWeights(self, Fsa, theta): """ wi <- wi + alpha * theta * Fi(s,a) """ for i, w in enumerate(self.weights): self.weights[i] += (self.alpha * theta * Fsa[i]) </code></pre> <p>我有大约183个二进制特性。在</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>我无法访问您的应用程序中的完整代码,因此我可能错了。但我想我知道你错在哪里。 首先,正常化在这里不应该是必要的。在这种情况下,体重过快膨胀说明你的实现有问题。在</p> <p>我想你的更新公式应该是:</p> <p>在自重[:,动作_i]=自重[:,动作1]+(自我阿尔法*θ*Fsa[i])</p> <p>也就是说,应该更新列而不是行,因为行用于状态,列用于权重矩阵中的操作。在</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何在python中从数据帧列中删除分类值?
7 回答
如何在python中从数据帧列表中删除引号
5 回答
如何在python中从数据帧创建列表
2 回答
如何在Python中从数据帧创建嵌套的JSON
3 回答
如何在Python中从数据帧显示wordcloud
9 回答
如何在Python中从数据帧的时间戳中删除字符
7 回答
如何在Python中从数据帧绘制简单绘图?
9 回答
如何在python中从数据帧行提取具有特定长度的范围?
9 回答
如何在python中从数据帧设置dict中的值
3 回答
如何在Python中从数据库中获得一个结果
7 回答
如何在python中从数据框中绘制分类条形图
1 回答
如何在Python中从数据框中选择特定细节?
10 回答
如何在python中从数据集中删除unicode
3 回答
如何在python中从数据集中删除某些数值?
5 回答
如何在python中从数据集中选择行
9 回答
如何在Python中从数组中删除元素
1 回答
如何在python中从数组中删除单个倒逗号?
6 回答
如何在python中从数组中删除对象?
8 回答
如何在python中从数组中删除引号
7 回答
如何在python中从数组中删除所有最小值
8 回答