一般神经网络(DNN)反向传播过程

admin • 2022-04-29 12:10 • 人工智能

DNN反向传播过程

多元函数微分

损失函数都是标量函数，它使用范数损失将向量转换为标量。计算损失函数在第L层输入的导数是一种标量对向量的求导。实际上不论是几维向量，都可以视为一列多元函数的自变量数组。
例如，

mtimes n

$m \times n$ 维度的矩阵

{

}

{W_{ij}}

${W_{i j}}$ 可以转化为一列多元函数的自变量数组：

{

}

→

(

)

{W_{ij}}rightarrow(W_{11},W_{12}...W_{nm})

${W_{i j}} \to (W_{11}, W_{12} . . . W_{n m})$
那么关于

{

}

{W_{ij}}

${W_{i j}}$ 的标量函数可以视作关于

(

)

(W_{11},W_{12}...W_{nm})

$(W_{11}, W_{12} . . . W_{n m})$ 的多元函数。多元函数的梯度就是标量函数对矩阵求导的结果。还记得多元函数的梯度是这样省的：

∂

→

(

∂

)

frac{partial f}{partial overrightarrow{x}}=(frac{partial f}{partial x_{1}}, frac{partial f}{partial x_{2}}...frac{partial f}{partial x_{n}})

$\partial x$

∂f=(∂x1∂f,∂x2∂f...∂xn∂f)

向量对向量求导

向量函数可以视作多个标量多元函数组成的向量，例如有将向量B映射为A的向量函数。

(

)

∈

A=G(B)\ where Ain R^{Ntimes1},Bin R^{Mtimes1}

$A = G (B) w h e r e A \in R^{N \times 1}, B \in R^{M \times 1}$

如果我们将向量A视作多个标量多元函数组成的向量，那么求导就方便多了。

(

)

(

)

∂

(

∂

)

(

∂

)

begin{aligned} A&=(a_{1}(b_{1},b_{2},...b_{m}),a_{2}(b_{1},b_{2},...b_{m}),...)\ frac{partial A}{partial B}&=(frac{partial a_{1}}{partial B},frac{partial a_{2}}{partial B},...)\ &=left( begin{array}{ccc} frac{partial a_{1}}{partial b_{1}} & ... & frac{partial a_{1}}{partial b_{m}}\ frac{partial a_{2}}{partial b_{1}} & ... & frac{partial a_{2}}{partial b_{m}}\ ... & ... & ...\ frac{partial a_{n}}{partial b_{1}} & ... & frac{partial a_{n}}{partial b_{m}}\ end{array} right) end{aligned}

$A \frac{\partial A}{\partial B} = (a_{1} (b_{1}, b_{2}, . . . b_{m}), a_{2} (b_{1}, b_{2}, . . . b_{m}), . . .) = (\frac{\partial a _{1}}{\partial B}, \frac{\partial a _{2}}{\partial B}, . . .) = ⎝ ⎜ ⎜ ⎛ \frac{\partial a _{1}}{\partial b _{1}} \frac{\partial a _{2}}{\partial b _{1}} . . . \frac{\partial a _{n}}{\partial b _{1}} . . . . . . . . . . . . \frac{\partial a _{1}}{\partial b _{m}} \frac{\partial a _{2}}{\partial b _{m}} . . . \frac{\partial a _{n}}{\partial b _{m}} ⎠ ⎟ ⎟ ⎞$
Wow, see, 现在向量求导清晰多了。当然，不管你将求导展开成

ntimes m

$n \times m$ 形式的矩阵还是

mtimes n

$m \times n$ 的矩阵，只要在求导时统一，都没有关系。

DNN损失函数求导

神经网络的损失函数都是标量函数。常见的损失有L1、L2范数损失、啦啦啦的。以L2范数损失为例，一般的全连接神经网络损失函数：

∣

(

)

−

∣

begin{array}{ccc} epsilon = frac{1}{2} ||sigma (bf{a^{L}})-bf{y}||^{2} & @Eq.1 end{array}

$ϵ = \frac{1}{2} ∣ ∣ σ (a^{L}) - y ∣ ∣^{2} @ E q . 1$
其中

⋅

−

∈

−

bf{a^{L}}=bf{W^{L}}cdotbf{a^{L-1}}+bf{b^{L}}, bf{a^{L}},bf{b^{L}}in R^{N_{L}},bf{W^{L}}in R^{N_{L}}times R^{N_{L-1}}

$a^{L} = W^{L} \cdot a^{L - 1} + b^{L}, a^{L}, b^{L} \in R^{N_{L}}, W^{L} \in R^{N_{L}} \times R^{N_{L - 1}}$ 表示第L层激活函数的结果，

bf{y}

$y$ 表示Ground truth。Now，如何求解损失函数对

bf{W^{L}}, bf{b^{L}}

$W^{L}, b^{L}$ 的梯度呢？We only have to expand Eq.1 to the following expression 啦啦啦:

[

(

⋅

−

)

−

]

∂

[

(

⋅

−

)

−

]

′

(

⋅

−

)

−

∂

{

∂

}

→

[

(

⋅

−

)

⊙

′

(

⋅

−

)

]

⋅

(

−

)

begin{aligned} epsilon &= frac{1}{2}Sigma_{i}^{N} [sigma(Sigma_{j}^{M}W_{ij}^{L}cdot a^{L-1}_{j}+b_{i}^{L})-y_{i}]^{2}\ frac{partialepsilon}{partial W_{xy}} &= [sigma(Sigma_{j}^{M}W_{xj}^{L}cdot a^{L-1}_{j}+b_{x}^{L})-y_{x}]timessigma'(Sigma_{j}^{M}W_{xj}^{L}cdot a^{L-1}_{j}+b_{x}^{L})times a_{y}^{L-1}\ so, frac{partialepsilon}{partial bf{W^{L}}}&={frac{partialepsilon}{partial W_{xy}^{L}}}_{x:1rightarrow N,y:1rightarrow M}\ &Then surprisingly\ &=[sigma(bf{W^{L}}cdot a^{L-1}+bf{b^{L}})odotsigma'(bf{W^{L}}cdot a^{L-1}+bf{b^{L}})]cdot (a^{L-1})^{T} end{aligned}

$ϵ \frac{\partial ϵ}{\partial W _{x y}} s o, \frac{\partial ϵ}{\partial W ^{L}} = \frac{1}{2} Σ_{i N} [σ (Σ_{j M} W_{i j L} \cdot a_{j L - 1} + b_{i L}) - y_{i}]^{2} = [σ (Σ_{j M} W_{x j L} \cdot a_{j L - 1} + b_{x L}) - y_{x}] \times σ^{'} (Σ_{j M} W_{x j L} \cdot a_{j L - 1} + b_{x L}) \times a_{y L - 1} = {\frac{\partial ϵ}{\partial W _{x y L}}}_{x : 1 \to N, y : 1 \to M} T h e n s u r p r i s i n g l y = [σ (W^{L} \cdot a^{L - 1} + b^{L}) ⊙ σ^{'} (W^{L} \cdot a^{L - 1} + b^{L})] \cdot (a^{L - 1})^{T}$
同样的，损失函数对偏置求导得到：

∂

[

(

⋅

−

)

⊙

′

(

⋅

−

)

]

frac{partialepsilon}{partial bf{b^{L}}}=[sigma(bf{W^{L}}cdot a^{L-1}+bf{b^{L}})odotsigma'(bf{W^{L}}cdot a^{L-1}+bf{b^{L}})]

$\frac{\partial ϵ}{\partial b ^{L}} = [σ (W^{L} \cdot a^{L - 1} + b^{L}) ⊙ σ^{'} (W^{L} \cdot a^{L - 1} + b^{L})]$
通常我们用

⋅

−

bf{z^{L}}=bf{W^{L}}cdot a^{L-1}+bf{b^{L}}

$z^{L} = W^{L} \cdot a^{L - 1} + b^{L}$ 表示未激活输出，

(

)

⊙

′

(

)

bf{delta^{L}}=sigma(bf{z^{L}})odotsigma'(bf{z^{L}})

$δ^{L} = σ (z^{L}) ⊙ σ^{'} (z^{L})$ 表示Hadamard乘积结果。那么损失函数对最后一层神经网络参数的梯度就是：

∂

⋅

(

−

)

∂

begin{aligned} frac{partialepsilon}{partial bf{W^{L}}}&=bf{delta^{L}}cdot (bf{a^{L-1}})^{T}\ frac{partialepsilon}{partial bf{b^{L}}}&=bf{delta^{L}} end{aligned}

$\frac{\partial ϵ}{\partial W ^{L}} \frac{\partial ϵ}{\partial b ^{L}} = δ^{L} \cdot (a^{L - 1})^{T} = δ^{L}$
桥豆麻嘚，好像推出来了什么不得了的东西。如果是对第

$h$ 层的参数求导，那么有：

∂

⋅

(

−

)

∂

⋅

∂

−

∂

begin{aligned} frac{partialepsilon}{partial bf{W^{H}}}&=bf{delta^{H}}cdot (bf{a^{H-1}})^{T} @Eq.2\ frac{partialepsilon}{partial bf{b^{H}}}&=bf{delta^{H}} @Eq.3\\ where bf{delta^{H}}&=frac{partialepsilon}{partial bf{Z^{L}}}cdotfrac{partialbf{Z^{L}}}{partial bf{Z^{L-1}}}...frac{partialbf{Z^{H+1}}}{partial bf{Z^{H}}} end{aligned}

$\frac{\partial ϵ}{\partial W ^{H}} \frac{\partial ϵ}{\partial b ^{H}} w h e r e δ^{H} = δ^{H} \cdot (a^{H - 1})^{T} @ E q . 2 = δ^{H} @ E q . 3 = \frac{\partial ϵ}{\partial Z ^{L}} \cdot \frac{\partial Z ^{L}}{\partial Z ^{L - 1}} . . . \frac{\partial Z ^{H + 1}}{\partial Z ^{H}}$
clearly，求导的关键在于求解后一层非激活输出对前一层非激活输出的导数，即：

∂

−

{

∂

−

}

∂

−

⋅

∂

−

⋅

(

−

)

(

−

)

(

−

)

begin{aligned} frac{partialbf{Z^{L}}}{partial bf{Z^{L-1}}}&={frac{partial Z^{L}_{i}}{partial Z^{L-1}_{j}}}\ frac{partial Z^{L}_{i}}{partial Z^{L-1}_{j}}&=W^{L}_{ij}cdot a^{L}_{j}\ which indicates frac{partialbf{Z^{L}}}{partial bf{Z^{L-1}}}&=bf{W^{L}}cdot diag(bf{a^{L-1}})\ where diag(bf{a^{L-1}})&=left(begin{array}{ccc} a_{1}^{L-1} & 0 & ...\ 0 & a_{2}^{L-1} & ...\ ...& ... & ... \ ... & ... & a_{N^{L-1}}^{L-1}\ end{array}right) end{aligned}

$\frac{\partial Z ^{L}}{\partial Z ^{L - 1}} \frac{\partial Z _{i L}}{\partial Z _{j L - 1}} w h i c h i n d i c a t e s \frac{\partial Z ^{L}}{\partial Z ^{L - 1}} w h e r e d i a g (a^{L - 1}) = {\frac{\partial Z _{i L}}{\partial Z _{j L - 1}}} = W_{i j L} \cdot a_{j L} = W^{L} \cdot d i a g (a^{L - 1}) = ⎝ ⎜ ⎜ ⎛ a_{1 L - 1} 0 . . . . . . 0 a_{2 L - 1} . . . . . . . . . . . . . . . a_{N^{L - 1} L - 1} ⎠ ⎟ ⎟ ⎞$

将上式代入至

delta^{H}

$δ^{H}$ 中，就可以得到：

(

∂

−

∂

)

⋅

(

⋅

(

−

)

⋅

begin{aligned} delta^{H} &= (frac{partialbf{Z^{L}}}{partial bf{Z^{L-1}}}...frac{partialbf{Z^{H+1}}}{partial bf{Z^{H}}})^{T}cdotdelta^{L}\ &= Pi^{T}(bf{W^{L}}cdot diag(bf{a^{L-1}}))cdotdelta^{L} @Eq.4 end{aligned}

$δ^{H} = (\frac{\partial Z ^{L}}{\partial Z ^{L - 1}} . . . \frac{\partial Z ^{H + 1}}{\partial Z ^{H}})^{T} \cdot δ^{L} = Π^{T} (W^{L} \cdot d i a g (a^{L - 1})) \cdot δ^{L} @ E q . 4$
to analyze it from the dimension aspect, Eq.4的维度信息是：

[

(

∗

−

)

(

−

∗

−

)

(

∗

)

]

(

∗

)

(

∗

)

[(N^{L}*N^{L-1})times(N^{L-1}*N^{L-2})times...(N^{H+1}*N^{H})]^{T}times(N^{L}*1)=(N^{H}*1)

$[(N^{L} * N^{L - 1}) \times (N^{L - 1} * N^{L - 2}) \times . . . (N^{H + 1} * N^{H})]^{T} \times (N^{L} * 1) = (N^{H} * 1)$
那么就不难得到任意一层的参数梯度表达式：

∂

(

⋅

(

−

)

⋅

(

−

)

∂

(

⋅

(

−

)

⋅

begin{aligned} frac{partialepsilon}{partial bf{W^{H}}}&=Pi^{T}(bf{W^{L}}cdot diag(bf{a^{L-1}}))cdotdelta^{L}cdot (bf{a^{H-1}})^{T}\ frac{partialepsilon}{partial bf{b^{H}}}&=Pi^{T}(bf{W^{L}}cdot diag(bf{a^{L-1}}))cdotdelta^{L} end{aligned}

$\frac{\partial ϵ}{\partial W ^{H}} \frac{\partial ϵ}{\partial b ^{H}} = Π^{T} (W^{L} \cdot d i a g (a^{L - 1})) \cdot δ^{L} \cdot (a^{H - 1})^{T} = Π^{T} (W^{L} \cdot d i a g (a^{L - 1})) \cdot δ^{L}$

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。

THE END

深度学习算法网络

二维码

opencv笔记17-图像像素类型转换与归一化

< <上一篇

人工智能基础-作业1

下一篇>>

搜索内容

一般神经网络(DNN)反向传播过程

DNN反向传播过程

多元函数微分

向量对向量求导

DNN损失函数求导

最新文章

分类

标签云