有一种logistic回归的一般形式,叫做Softmax回归,用于处理多类型的分类问题。 0.Softmax操作 我们将在此处采用的主要方法是将模型的输出解释为概率。我们将优化参数以产生使观察到的数据的可能性最大化的概率。然后,为了生成预测,我们将设置一个阈值,例如,选择具有最大预测概率的标签。 正式地说,我们想要任何输出 y ^ j \hat{y}_j y ^ j 被解释为给定项目属于类别的概率 j 。然后我们可以选择具有最大输出值的类别作为我们的预测 argmax j y j \operatorname{argmax}_j y_j a r g m a x j y j . 。例如,如果 y ^ 1 \hat{y}_1 y ^ 1 , y ^ 2 \hat{y}_2 y ^ 2 , 和 y ^ 3 \hat{y}_3 y ^ 3 分别为0.1、0.8和0.1。然后预测是第二类。 您可能会倾向于建议我们解释日志 o 直接作为我们感兴趣的输出。然而,将线性层的输出直接解释为概率存在一些问题。一方面,没有什么约束这些数字的总和为1。另一方面,取决于输入,它们可以取负值。 为了将我们的输出解释为概率,我们必须保证(即使在新数据上)它们也将是非负的并且总和为1。此外,我们需要一个训练目标来鼓励模型忠实地估计概率。在分类器输出0.5的所有实例中