擅长:python、mysql、java
<p>将“softmax”激活推到交叉熵损失层可以显著简化损失计算,并使其在数值上更稳定。<br/>
在您的例子中,可能是数值问题严重到使<code>from_logits=False</code>选项的培训过程无效的情况。在</p>
<p>你可以在<a href="https://stackoverflow.com/a/34917052/1714410">this post</a>中找到交叉熵损失(信息增益损失的一个特例)的推导。这一推导说明了将softmax与交叉熵损失相结合时避免的数值问题。在</p>