AI相关基础知识

1、神经网络中的filter (滤波器)与kernel(内核)的概念

kernel: 内核是一个2维矩阵,长 × 宽;

filter:滤波器是一个三维立方体,长× 宽 × 深度, 其中深度便是由 多少张内核构成;

两者之间的关系:可以说 kernel 是filter 的基本元素, 多张kernel 组成一个filter;

那么,一个filter 中应该包含多少张 kernel 呢?

答:是由输入的通道个数所确定,即,输入通道是3个特征时,则后续的每一个filter中包含3张kernel ;

filter输入通道是包含128个特征时, 则一个filter中所包含kernel 数是128张。

那么一层中应该有多少个filter 构成呢?

答:我们想要提取多少个特征,即我们想要输出多少个特征,那么这一层就设置多少个filter;

一个filter 负责提取某一种特征,N个filter 提取 N 个 特征;

2、将卷积想象为信息的混合。想象一下,有两个桶装满了信息,这些信息被倒入一个桶中,然后按照特定的规则混合。每桶信息都有自己的配方,用于描述一个桶中的信息如何与另一个桶混合。因此,卷积是一个有序的过程,两个信息来源交织在一起。普通卷积是,一个卷积核与input的所有通道都进行卷积,然后不同通道相同位置卷积后的结果再相加。卷积核的Channel通道数等于Input输⼊的通道数,Output输出的通道数等于卷积核的个数。深度卷积是每个卷积核对应一个通道。

3、每一张图片都是由一个一个的像素点所组成的。而每个像素点,都有自己的颜色。像素点是从0到255,一般为黑(0),白(255)。

4、通道数据:对于最初输入图片样本的通道数 in_channels 取决于图片的类型,如果是彩色的,即RGB类型,这时候通道数固定为3,如果是灰色的,通道数为1。

5、卷积完成之后,输出的通道数out_channels 取决于过滤器的数量。从这个方向理解,这里的 out_channels 设置的就是过滤器的数目。对于第二层或者更多层的卷积,此时的in_channels 就是上一层的 out_channels , out_channels 还是取决于过滤器数目。

6、卷积乘法示例:

3 * 3 的像素区域R与卷积核G的卷积运算:

R5(中心像素)=R1G1 +R2G2 + R3G3 + R4G4 + R5G5 + R6G6 + R7G7 + R8G8 + R9G9

7、feature map:不同特征的输出。

8、降噪算法:

  1. 通过乘以降噪矩阵,提高人声声波同时降低其他噪音,提高接收声音的原始性。

  1. 大数据的价值:通过大量有效数据输入算法,实现算法学习。

  1. 打断唤醒是有概率无法唤醒的,不同环境下唤醒概率不同。语音唤醒:唤醒词(1~9个)。

  1. 算法模式:ASR(工业化,快速切换唤醒词)/one_hot(需要重新学习切换唤醒词,重新训练快,2K人次进行学习)。算法模型:CRN/ResNet/Attention。

  1. 传统算法功耗更大。通过AEC算法消除设备本身回声噪音。语音端点检测,通过0,1参数控制。

  1. 算法链路:

传统模式:VAD+KWS。

打断:VAD+AEC+KWS。

多情况:VAD+BF/AEC+ENC+KWS。

通过降低唤醒率,降低误唤醒率。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>