结论先行

交叉熵的公式:

$J(\theta)$对$\theta$的求导结果为:

推导细节

交叉熵损失函数为:

其中,

由此,得到

这次再计算$J(\theta)$对第$j$个参数分量$\theta_j$求偏导:

这就是交叉熵对参数的导数:

Ref.

交叉熵代价函数(损失函数)及其求导推导