NNDL 作业10 第六章课后题(LSTM|GRU)
目录
习题6-3 当使用公式(6.50)作为循环神经网络得状态更新公式时,分析其可能存在梯度爆炸的原因并给出解决办法.
习题6-4推导LSTM 网络中参数的梯度,并分析其避免梯度消失的效果.
习题6-5推导GRU网络中参数的梯度,并分析其避免梯度消失的效果. (选做)
附加题6-1P:什么时候应该用GRU?什么时候用LSTM?(选做)
习题6-3 当使用公式(6.50)作为循环神经网络得状态更新公式时,分析其可能存在梯度爆炸的原因并给出解决办法.
梯度爆炸问题产生的原因是由于公式作为函数在第k时刻的输入时,计算误差项,梯度可能会过大,从而导致梯度爆炸,可以通过使用LSTM网络来增加门控机制,以此来解决该问题。
习题6-4推导LSTM 网络中参数的梯度,并分析其避免梯度消失的效果.
习题6-5推导GRU网络中参数的梯度,并分析其避免梯度消失的效果. (选做)
附加题6-1P:什么时候应该用GRU?什么时候用LSTM?(选做)
相较于LSTM, 由于 GRU 参数更少,收敛速度更快,因此花费时间要少很多。 而LSTM则更加灵活,因为它具有三个门控。但实际上,二者之间的表现差距往往并不大,远没有调参所带来的效果明显,二者之间的选择要根据具体的任务和数据集而定。
附加题 6-2P LSTM BP推导,并用Numpy实现
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
二维码