高级人工智能——深度学习整理


前言

一、玻尔兹曼机系列

1.1 Hopfield

Hopfield网络是反馈类型,其神经元的结构功能在网络中的地位是一样的。其学习是基于灌输式学习,即网络的权值不是通过训练出来的,而是按照一定规则计算出来的,将求解的问题转换成优化问题的能量函数,网络的稳定状态是优化问题的解,其权值一旦确定就不再改变了。【Hopfield网络在吴老师的期末复习PPT上似乎没有出现,但是BM与Hopfield有一定共性,看一下有助理解。】

1.2 BM(玻尔兹曼机)

BM的结构类似于Hopfield网络,但是它是具有隐含单元的反馈互联网络。
1.上文提到Hopfield神经元的结构功能在网络中的地位是一样的,BM中一部分神经元与外部相连接,可以起到网络的输入输出作用,或者严格的说可以受到外部条件的约束,另一部分神经元不与外部相连,因而属于隐单元(相对于外部)。
2.每个神经元只有1/0两个状态:状态为1代表神经元处于激活(连接)状态,0表示非激活(断开)状态。

在这里插入图片描述
注意看同层之间的链接

1.3 RBM(受限玻尔兹曼机)

RBM是BM的一个变体,层间全连接,层内无连接,网络中的神经元是随机神经元。限定模型必须为二分图,学习的目标是极大似然。
在这里插入图片描述
层间的关系可以对比BM

1.4 DBN(深度置信网络)

在这里插入图片描述
DBN模型由若干个RBM堆叠而成,通过非监督的预学习和监督微调训练参数。
训练时通过从底到高逐层训练这些RBM来实现:

  1. 底部RBM以原始输入数据训练;
  2. 将底部RBM抽取的特征作为顶部RBM的输入训练;
  3. 过程(1)和(2)可以重复训练所需的尽可能多的参数。

二、CNN卷积神经网络

主要特点是:局部链接、参数共享、子采样、(非逐层贪婪训练)[这些特点对应了CNN不同的层]
CNN神经元之间的连接是非全链接,同一层中神经元之间的链接权重是共享的——减少了权值的数量,降低了网络模型的复杂度。CNN的一个卷积层中,一般包含若干个特征平面,每个特征平面由一些矩阵形排列的神经元组成,同一特征平面神经元共享权值。
每个卷积层之后,通常立即会有一个非线性层(激活层),目的是给一个卷积层中刚经过线性计算操作的系统引入非线性特征。


池化层pooling:逐渐降低数据空间尺寸,有效减少网络中参数。

卷积层cov:通过卷积操作对输入图像进行降维和特征抽取

全连接层:整个网络中分类器的作用。

Relu:1.采用Sigmoid计算量较大,而Relu激活函数可以减少计算过程计算量。2.防止梯度消失。3.Relu会使一部分神经元输出为0,造成网络稀疏性,从而减小参数相互依赖关系,缓解过拟合。

主要是看这也是模式考试也考到,顺便总结了

三、GAN对抗网络

GAN的核心思想是纳什均衡;生成器C(生成一个数据,会被判定结果优化)+判别器(判断是否是生成器生成的)
生成器的主要目的是尽量学习真实的数据分布。把噪声数据Z通过生成模型G,伪装成真实数据x。判别器的目的是尽量正确判别输入数据是真实数据还是来自生成器数据。各自提高自己生成能力和判别能力,这个学习优化的过程是寻找生成器和判别器之间的纳什均衡。
在这里插入图片描述
这个图画的是真的不错,不行就把图记住,绘画大赛

这是原文论给出的算法过程,反正就是很难记,结合上面的图,再把红框解释一下老师应该也不会太为难大家…
在这里插入图片描述

第一步训练D,D希望V(G、D)越大越好,所以需要加上梯度。(我希望我判断能力越来越好)。
第二步训练G,G希望V(G,D)越小越好,所以要减去梯度。(希望让判别模糊,我希望自己的欺骗能力越来越好。
整个训练过程由上面两步交替进行。

四、RNN及其变种

RNN

原理:RNN对前面信息进行记忆并且应用于当前输出计算中,隐藏层节点之间存在链接,并且隐藏层输入不仅包含输入层输出还包含上一层隐含层的输入。(可以看成是权值共享的多层前向网络)。

特点:

  1. 分布式隐藏状态,可以有效存储过去大量信息;
  2. 以非线性动态方式更新隐藏状态。

BP算法训练RNN:(实现权值一致)

  1. 前向传递:每个时间步长各单元的输出入栈;
  2. 后向传递:状态出栈,计算每个时间步长误差函数的导数;
  3. 将每个权重的所有时刻导数家和。

LSTM

LSTM通过“门”结构来除去和增加“细胞状态”的信息,实现了对重要内容的保留或对不重要内容的去除。通过sigmoid层输入0到1之间概率值,描述有多少信息通过。
门结构包括:遗忘门、信息增加门和输出门。

GRU

GRU是LSTM的变体,相比LSTM有更简单的结构。GRU包括了重置门和更新门。【计算速度快、容易创建较大的网络】

BRNN

每个词对应一个输出,同时用到了同一个词前后的信息。
缺点:需要完整的数据序列,你才能预测任意位置

DRNNs

多个隐层。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>