DL小笔记

admin • 2023-01-24 20:03 • 人工智能

一、下采样与上采样。

下采样（subsampled）又称为降采样（downsampled），即抽取特征缩小图像尺寸，减少矩阵的采样点数。

有两个作用：减少计算量，防止过拟合；增大感受野，使得后面的卷积核能够学到更加全局的信息。

常用方法：1、加入池化层，如Max-pooling（相比平均池化，最大池化计算简单而且能够更好的保留纹理特征）；

2、加入卷积层，下采样的过程是一个信息损失的过程，而池化层是不可学习的，用stride为2的可学习卷积层来代替pooling可以得到更好的效果，当然同时也增加了一定的计算量。

上采样（upsampling）又称为插值（interpolating），即放大图像，增加矩阵的采样点数，是下采样的逆向操作。在卷积神经网络中，由于输入图像通过CNN提取特征后，输出的尺寸往往会变小，而有时需要将图像恢复到原来的尺寸以便进行进一步的计算（如图像的语义分割），这个使图像由小分辨率映射到大分辨率的操作。

常用方法：1、插值，一般使用的是双线性插值，效果最好，计算上比其他插值方法稍微复杂，但不值一提，其他插值方式还有最近邻插值、三线性插值等；

2、转置卷积又名反卷积(Transpose Conv)，通过对输入feature map间隔填充0，再进行标准的卷积计算，可以使得输出feature map的尺寸比输入更大；

3、Up-Pooling - Max Unpooling && Avg Unpooling --Max Unpooling，在对称的max pooling位置记录最大值的索引位置，然后在unpooling阶段时将对应的值放置到原先最大值位置，其余位置补0

二、token

在NLP输入一段句子，分词器会将句子中的单词、符号转换成一个个token，可以认为每一个单词是一个token，然后还有一个标注句子语义的标注cls。

在CV领域，不能直接把每个像素看作一个token（token太多了，远超BERT的上限512个），所以ViT把图像切割成一个个16x16的patch（具体数值可以修改），每个patch块看作是一个token。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。

THE END

二维码

基于BP神经网络手写数字和字母识别

< <上一篇

【PyTorch深度学习实践】04_用PyTorch实现线性回归

下一篇>>

搜索内容

DL小笔记

一、下采样与上采样。

二、token

最新文章

分类

标签云