RNN Transducer(RNN-T)——李宏毅人类语言处理学习笔记

(RNA)Recurrent Neural Aligner

其实他是在RNN-T之后被提出的,有点像CTC和RNA之间过度的方法。
CTC输出时是相互独立的,我们不想让他相互独立,让其在输出时看一看前面的东西。把Linear classifie换成rnn或者lstm即可,这就是rna。
在这里插入图片描述

RNN-T

RNA和CTC都是吃一个输入,输出一个token,那有时候我们需要吃一个输入,有多个输出,例如吃一个发音对应多个token,RNN-T便可以做这个事情。

一个输入进来,一直输出到Model觉得满意为止。有T个声音讯feature,输出T个Null,最终辨识的结果要把null拿掉。
在这里插入图片描述
RNN-T和CTC有同样的问题,需要知道何时输出null,但是这种Label在training是没有的,这种label需要自己去训练。
例如下图,你必须要在好棒之间插入四个null,RNN-T和CTC一样会穷举所有的element
在这里插入图片描述

实际上RNN-T会另外训练一个RNN,其作用有点像是一个language model,遇见null时忽略。
在这里插入图片描述

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>