一句话概括
sigmoid 激活函数 二分类的激活函数 解决我是和不是的问题 对应二元交叉熵损失函数
softmax 激活函数 多分类的激活函数 解决我们中哪个是的问题 对应多元交叉熵损失函数
二分类推导
为什么用交叉商:
梯度下降的角度:从下面的推导过程可以看出来sigmoid对应的交叉商最后的梯度是一种残差。mse 是高斯分布的最大似然,二CE是多项式分布的最大似然。https://zhuanlan.zhihu.com/p/63731947
交叉商的本质出发:交叉熵描述了两个不同的概率分布p和q的差异程度,两个分布差异越大,则交叉熵的差异越大。交叉商关注的是正确类别的预测概率,而MSE无差别的关注全部类别上预测概率与真实概率的差 在MSE中[1,0,0]与[0.8,0.2]的差别是大于[0.9,0.1] 而CE的眼中并无差异。
前向传播与反向传播的推导过程:
多元分类:
https://zhuanlan.zhihu.com/p/27223959
损失函数因为多元,所以和二元是有点改变的。应该考虑每一个了。
来源:https://blog.csdn.net/weixin_37721058/article/details/100851674