【动手学深度学习】(task1)注意力机制(更新中)

note

  • 注意力机制

零、基础回顾

0.0 不同人员的学习定位

  • AI相关从业人员(产品经理等):掌握What,知道名词,能干什么
  • 数据科学家、工程师:掌握What、How,手要快,能出活
  • 研究员、学生:掌握What、How、Why,除了知道有什么和怎么做,还要知道为什么,思考背后的原因,做出新的突破

0.1 AI地图

在这里插入图片描述
y轴表示可以达到的层次:由底部向上依次是

感知:了解是什么,比如能够可以看到物体,如面前的一块屏幕

推理:基于感知到的现象,想象或推测未来会发生什么

知识:根据看到的数据或者现象,形成自己的知识

规划:根据学习到的知识,做出长远的规划

  • NLP:停留在【感知层面】,如机器翻译;NLP从【符号学】的方法,到【概率模型】,到现在的【机器学习|深度学习】。
  • CV:在感知层面上,对图片做一些推理;图片里都是像素,很难用nlp的那种符号学解释,所以一般用【概率模型】和【机器学习|深度学习】。
  • 深度学习:机器学习的一种,包括CV、NLP、强化学习等。

0.2 深度学习的应用

在这里插入图片描述

  • 物体检测和分割:图片内容、物体是啥、物体位置;物体分割指每个像素属于什么,属于飞机还是人等;
  • 样式迁移:原图片+迁移风格=风格迁移后的图片
  • 文生图:如diffusion model
  • 文字生成:如ChatGPT
  • 广告点击:
    • 步骤:
      • 触发:用户输入关键词,机器先找到一些相关的广告
      • 点击率预估: 利用机器学习的模型预测用户对广告的点击率
      • 排序:利用 点击率 x 竞价 的结果进行排序呈现广告,排名高的在前面呈现
    • 模型的预测:数据 (待预测广告) → 特征提取 → 模型 → 点击率预测
    • 训练数据 (过去广告展现和用户点击) → 特征(X)和用户点击(Y) → 喂给模型训练

0.3 答疑

Q1:领域专家是什么意思?

举个例子,比如我要做农业上的物体识别,我种了一棵树,想要看今年的收成怎么样,我有很多很多土地,用人去一个个查看很费力,于是我用一个无人机,将农作物的情况拍下来,假设得到了树的一些图片,而数据科学家不知道农作物什么样的情况是好,什么样是坏,于是领域专家进行解释,比如多少叶子算是好,什么样不好。同时数据科学家将领域专家的问题翻译成机器学习能做的任务。所以可以认为领域专家提需求的人甲方,而数据科学家乙方

Q2:符号学可以和机器学习融合起来吗?

确实是可以的。目前来说,符号学深度学习有一些新的进展,以前说符号学就是做一些符号上的推理,目前深度学习如图神经网络,可以做一些比较复杂的推理。

Q3:说自然语言处理仅仅停留在感知层面似乎不太合适?因为语言的理解和产出不仅仅是感知,也涉及到语言知识和世界知识,也涉及到规划,比如机器规划下一步要做什么。

语言当然是一个很复杂的过程,我只是想说,自然语言处理我们做得还很一般,虽然能做一些感知以外的东西,但是我感觉是说,不如深度学习特别机器学习,在图片上的应用做得好一些。当然AI地图上也只是一个大致的分类

Q4:如何寻找自己领域的paper的经验吗?

因为大家如果现在去读paper的话,可能每天都有一百篇paper出来,你怎么样去找到你想要的paper,总不能天天看朋友圈推文,这样只能知道别人读过的paper,不会有自己独特的见解

Q5:以无人驾驶为例,误判率在不断下降,但误判的影响还是很严重的,有可能从已有的判断case(样例)得到修正,从而完全避免这样的错误吗?

无人驾驶中,任何一次出现的错误,都可能带来毁灭性的灾难。大家可能看到,特斯拉今天撞了,明天又撞了。所以说,无人驾驶对于错误率确实是非常注重的。

机器学习在学术界现在有很多关于uncertainty或者robustness的研究,就是说模型在数据偏移或者极端情况下会不会给出很不好的答案,我们不会特别深入去讲这个事情,但是无人驾驶这一块确实会通过大量的技术,比如说把不同的模型融合在一起,不是仅仅train一个模型,用多个模型来做投票。汽车有很多雷达、摄像头,它会通过不同的传感器来进行模型的融合,从而降低误差。

因为涉及到评价无人驾驶的特别技术,但在竞赛中我们会给大家看到如何通过融合多个模型提升精度的做法。

一、可视化注意力权重

1.1 查询、键和值

自主性的与非自主性的注意力提示解释了人类的注意力的方式,下面来看看如何通过这两种注意力提示,用神经网络来设计注意力机制的框架,

首先,考虑一个相对简单的状况,即只使用非自主性提示。要想将选择偏向于感官输入,则可以简单地使用参数化的全连接层,甚至是非参数化的最大汇聚层或平均汇聚层。

因此:

  • “是否包含自主性提示”将注意力机制与全连接层或汇聚层区别开来。
    • 查询query:在注意力机制的背景下,自主性提示。给定任何查询,注意力机制通过注意力汇聚(attention pooling)将选择引导至感官输入(sensory inputs,例如中间特征表示)。
    • 在注意力机制中,这些感官输入被称为(value)。每个值都与一个(key)配对,这可以想象为感官输入的非自主提示。如下图所示,可以通过设计注意力汇聚的方式,便于给定的查询(自主性提示)与键(非自主性提示)进行匹配,这将引导得出最匹配的值(感官输入)。

在这里插入图片描述

这个框架下的模型将成为本章的中心。然而,注意力机制的设计有许多替代方案。例如可以设计一个不可微的注意力模型,该模型可以使用强化学习方法(Mnih et al., 2014)进行训练。

1.2 注意力的可视化

平均汇聚层可以被视为输入的加权平均值,其中各输入的权重是一样的。实际上,注意力汇聚得到的是加权平均的总和值,其中权重是在给定的查询和不同的键之间计算得出的。

import torch
import matplotlib.pyplot as plt
from matplotlib_inline import backend_inline
# from d2l import torch as d2l

# metrices: shape, [要显示的行数,要显示的列数,查询的数目, 键的数目]
# 可视化注意力权重
#@save
def show_heatmaps(matrices, xlabel, ylabel, titles=None, figsize=(2.5, 2.5),
                  cmap='Reds'):
    """显示矩阵热图"""
    backend_inline.set_matplotlib_formats('svg') # format
    # d2l.use_svg_display()
    num_rows, num_cols = matrices.shape[0], matrices.shape[1]
    # fig, axes = d2l.plt.subplots(num_rows, num_cols, figsize=figsize,
    #                              sharex=True, sharey=True, squeeze=False)
    fig, axes = plt.subplots(num_rows, num_cols, figsize=figsize,
                             sharex=True, sharey=True, squeeze=False)
    for i, (row_axes, row_matrices) in enumerate(zip(axes, matrices)):
        for j, (ax, matrix) in enumerate(zip(row_axes, row_matrices)):
            pcm = ax.imshow(matrix.detach().numpy(), cmap=cmap)
            if i == num_rows - 1:
                ax.set_xlabel(xlabel)
            if j == 0:
                ax.set_ylabel(ylabel)
            if titles:
                ax.set_title(titles[j])
    fig.colorbar(pcm, ax=axes, shrink=0.6);

# 当查询和键相同时,注意力权重为1,否则为0
attention_weights = torch.eye(10).reshape((1, 1, 10, 10))
# 显示注意力权重
show_heatmaps(attention_weights, xlabel='Keys', ylabel='Queries')

上面的栗子,仅当查询和键相同时,注意力权重为1,否则为0。后面也经常用show_heatmaps函数来显示注意力权重。
在这里插入图片描述

1.3 小结和练习

【小结】

  • 受试者使用非自主性和自主性提示有选择性地引导注意力。前者基于突出性,后者则依赖于意识。
  • 注意力机制与全连接层或者汇聚层的区别源于增加的自主提示。
  • 由于包含了自主性提示,注意力机制与全连接的层或汇聚层不同。
  • 注意力机制通过注意力汇聚使选择偏向于值(感官输入),其中包含查询(自主性提示)和键(非自主性提示)。键和值是成对的。
  • 可视化查询和键之间的注意力权重是可行的。
  • 查询(自主提示)和键(非自主提示)之间的交互形成了注意力汇聚;注意力汇聚有选择地聚合了值(感官输入)以生成最终的输出。1964年提出的Nadaraya-Watson核回归模型是一个简单但完整的例子,可以用于演示具有注意力机制的机器学习。

【练习】
(1)在机器翻译中通过解码序列词元时,其自主性提示可能是什么?非自主性提示和感官输入又是什么?

(2)随机生成一个10 X 10矩阵并使用softmax运算来确保每行都是有效的概率分布,然后可视化输出注意力权重。

import torch
import torch.nn.functional as F
matrix = torch.randn(10, 10)
# 确保每行是有效的概率分布
softmax_matrix = F.softmax(matrix, dim = 1)
# 可视化注意力权重
show_heatmaps(softmax_matrix.unsqueeze(0).unsqueeze(0), "Keys", "Queries")

在这里插入图片描述

二、注意力汇聚:Nadaraya-Watson 核回归

  • Nadaraya-Watson核回归是具有注意力机制的机器学习范例。
  • Nadaraya-Watson核回归的注意力汇聚是对训练数据中输出的加权平均。从注意力的角度来看,分配给每个值的注意力权重取决于将值所对应的键和查询作为输入的函数。
  • 注意力汇聚可以分为非参数型和带参数型。

2.1 平均汇聚

回归问题:给定的成对的“输入-输出”数据集

{

(

x

1

,

y

1

)

,

,

(

x

n

,

y

n

)

}

{(x_1, y_1), ldots, (x_n, y_n)}

{(x1,y1),,(xn,yn)},如何学习

f

f

f来预测任意新输入

x

x

x的输出

y

^

=

f

(

x

)

hat{y} = f(x)

y^=f(x)

【准备数据集】根据下面的非线性函数生成一个人工数据集,其中加入的噪声项为

ϵ

epsilon

ϵ

y

i

=

2

sin

(

x

i

)

+

x

i

0.8

+

ϵ

,

y_i = 2sin(x_i) + x_i^{0.8} + epsilon,

yi=2sin(xi)+xi0.8+ϵ,

  • ϵ

    epsilon

    ϵ服从均值为

    0

    0

    0和标准差为

    0.5

    0.5

    0.5的正态分布

  • 下面生成了

    50

    50

    50个训练样本和

    50

    50

    50个测试样本。为了更好地可视化之后的注意力模式,需要将训练样本进行排序。

# 导库,绘图格式设置
import torch
import torch.nn as nn
from d2l import torch as d2l
def plot_kernel_reg(y_hat):
    d2l.plot(x_test, [y_truth, y_hat], 'x', 'y', legend=['Truth', 'Pred'],
             xlim=[0, 5], ylim=[-1, 5])
    d2l.plt.plot(x_train, y_train, 'o', alpha=0.5)

# 和上面和下面的可视化函数结果等价
def use_svg_display():
    """Use the svg format to display a plot in Jupyter.

    Defined in :numref:`sec_calculus`"""
    backend_inline.set_matplotlib_formats('svg')

def set_figsize(figsize=(3.5, 2.5)):
    """Set the figure size for matplotlib.

    Defined in :numref:`sec_calculus`"""
    use_svg_display()
    d2l.plt.rcParams['figure.figsize'] = figsize

def set_axes(axes, xlabel, ylabel, xlim, ylim, xscale, yscale, legend):
    """Set the axes for matplotlib.

    Defined in :numref:`sec_calculus`"""
    axes.set_xlabel(xlabel)
    axes.set_ylabel(ylabel)
    axes.set_xscale(xscale)
    axes.set_yscale(yscale)
    axes.set_xlim(xlim)
    axes.set_ylim(ylim)
    if legend:
        axes.legend(legend)
    axes.grid()

def plot(X, Y=None, xlabel=None, ylabel=None, legend=None, xlim=None,
         ylim=None, xscale='linear', yscale='linear',
         fmts=('-', 'm--', 'g-.', 'r:'), figsize=(3.5, 2.5), axes=None):
    """Plot data points.

    Defined in :numref:`sec_calculus`"""
    if legend is None:
        legend = []

    set_figsize(figsize)
    axes = axes if axes else d2l.plt.gca()

    # Return True if `X` (tensor or list) has 1 axis
    def has_one_axis(X):
        return (hasattr(X, "ndim") and X.ndim == 1 or isinstance(X, list)
                and not hasattr(X[0], "__len__"))

    if has_one_axis(X):
        X = [X]
    if Y is None:
        X, Y = [[]] * len(X), X
    elif has_one_axis(Y):
        Y = [Y]
    if len(X) != len(Y):
        X = X * len(Y)
    axes.cla()
    for x, y, fmt in zip(X, Y, fmts):
        if len(x):
            axes.plot(x, y, fmt)
        else:
            axes.plot(y, fmt)
    set_axes(axes, xlabel, ylabel, xlim, ylim, xscale, yscale, legend)

def plot_kernel_reg(y_hat):
    plot(x_test, [y_truth, y_hat], 'x', 'y', legend=['Truth', 'Pred'],
             xlim=[0, 5], ylim=[-1, 5])
    plt.plot(x_train, y_train, 'o', alpha=0.5);

# 1. build dataset
n_train = 50  # 训练样本数
x_train, _ = torch.sort(torch.rand(n_train) * 5)   # 排序后的训练样本

def f(x):
    return 2 * torch.sin(x) + x**0.8

y_train = f(x_train) + torch.normal(0.0, 0.5, (n_train,))  # 训练样本的输出
x_test = torch.arange(0, 5, 0.1)  # 测试样本
y_truth = f(x_test)  # 测试样本的真实输出
n_test = len(x_test)  # 测试样本数

# 2. 平均汇聚
y_hat = torch.repeat_interleave(y_train.mean(), n_test)
plot_kernel_reg(y_hat)

上面使用最简单的评估器——平均汇聚求所有训练样本输出值的平均值,显然没啥用,相差有点大。
在这里插入图片描述

2.2 非参数注意力汇聚

显然,平均汇聚忽略了输入

x

i

x_i

xi
于是Nadaraya :cite:Nadaraya.1964和Watson :cite:Watson.1964提出了一个更好的想法,根据输入的位置对输出

y

i

y_i

yi进行加权:

f

(

x

)

=

i

=

1

n

K

(

x

x

i

)

j

=

1

n

K

(

x

x

j

)

y

i

,

f(x) = sum_{i=1}^n frac{K(x - x_i)}{sum_{j=1}^n K(x - x_j)} y_i,

f(x)=i=1nj=1nK(xxj)K(xxi)yi,

其中

K

K

K(kernel)。上面公式所描述的估计器被称为Nadaraya-Watson核回归(Nadaraya-Watson kernel regression)。
在这里插入图片描述

但受此启发,我们可以上图中的注意力机制框架的角度重写 :eqref:eq_nadaraya-watson,成为一个更加通用的注意力汇聚(attention pooling)公式:

f

(

x

)

=

i

=

1

n

α

(

x

,

x

i

)

y

i

,

f(x) = sum_{i=1}^n alpha(x, x_i) y_i,

f(x)=i=1nα(x,xi)yi,

其中

x

x

x是查询,

(

x

i

,

y

i

)

(x_i, y_i)

(xi,yi)是键值对。比较上面公式和平均汇聚公式,注意力汇聚是

y

i

y_i

yi的加权平均。
将查询

x

x

x和键

x

i

x_i

xi之间的关系建模为注意力权重(attention weight)

α

(

x

,

x

i

)

alpha(x, x_i)

α(x,xi),如上一个公式所示,这个权重将被分配给每一个对应值

y

i

y_i

yi。对于任何查询,模型在所有键值对注意力权重都是一个有效的概率分布:它们是非负的,并且总和为1。

为了更好地理解注意力汇聚,下面考虑一个高斯核(Gaussian kernel),其定义为:

K

(

u

)

=

1

2

π

exp

(

u

2

2

)

.

K(u) = frac{1}{sqrt{2pi}} exp(-frac{u^2}{2}).

K(u)=2π

1exp(2u2).

将高斯核代入 第一个公式和第二个公式可以得到:

f

(

x

)

=

i

=

1

n

α

(

x

,

x

i

)

y

i

=

i

=

1

n

exp

(

1

2

(

x

x

i

)

2

)

j

=

1

n

exp

(

1

2

(

x

x

j

)

2

)

y

i

=

i

=

1

n

s

o

f

t

m

a

x

(

1

2

(

x

x

i

)

2

)

y

i

.

begin{aligned} f(x) &=sum_{i=1}^n alpha(x, x_i) y_i\ &= sum_{i=1}^n frac{expleft(-frac{1}{2}(x - x_i)^2right)}{sum_{j=1}^n expleft(-frac{1}{2}(x - x_j)^2right)} y_i \&= sum_{i=1}^n mathrm{softmax}left(-frac{1}{2}(x - x_i)^2right) y_i. end{aligned}

f(x)=i=1nα(x,xi)yi=i=1nj=1nexp(21(xxj)2)exp(21(xxi)2)yi=i=1nsoftmax(21(xxi)2)yi.

在上面公式中,如果一个键

x

i

x_i

xi越是接近给定的查询

x

x

x,那么分配给这个键对应值

y

i

y_i

yi的注意力权重就会越大,也就“获得了更多的注意力”。

值得注意的是,Nadaraya-Watson核回归是一个非参数模型。因此,上面公式是非参数的注意力汇聚(nonparametric attention pooling)模型。下面将基于这个非参数的注意力汇聚模型来绘制预测结果。从绘制的结果会发现新的模型预测线是平滑的,并且比平均汇聚的预测更接近真实。

# 非参数注意力汇聚(Nd核回归)

# X_repeat的形状:(n_test,n_train),
# 每一行都包含着相同的测试输入(例如:同样的查询)
X_repeat = x_test.repeat_interleave(n_train).reshape((-1, n_train))
# x_train包含着键。attention_weights的形状:(n_test,n_train),

# 每一行都包含着要在给定的每个查询的值(y_train)之间分配的注意力权重
attention_weights = nn.functional.softmax(-(X_repeat - x_train)**2 / 2, dim=1)

# y_hat的每个元素都是值的加权平均值,其中的权重是注意力权重
y_hat = torch.matmul(attention_weights, y_train)
plot_kernel_reg(y_hat)

# 注意力权重可视化
show_heatmaps(attention_weights.unsqueeze(0).unsqueeze(0),
                  xlabel='Sorted training inputs',
                  ylabel='Sorted testing inputs')

在这里插入图片描述
可看到上图的效果比平均汇聚好点。
在这里插入图片描述

2.3 带参数注意力汇聚

【批量矩阵乘法】
为了更有效地计算小批量数据的注意力,可以利用深度学习开发框架中提供的批量矩阵乘法。

假设第一个小批量数据包含

n

n

n个矩阵

X

1

,

,

X

n

mathbf{X}_1,ldots, mathbf{X}_n

X1,,Xn,形状为

a

×

b

atimes b

a×b,第二个小批量包含

n

n

n个矩阵

Y

1

,

,

Y

n

mathbf{Y}_1, ldots, mathbf{Y}_n

Y1,,Yn,形状为

b

×

c

btimes c

b×c
它们的批量矩阵乘法得到

n

n

n个矩阵

X

1

Y

1

,

,

X

n

Y

n

mathbf{X}_1mathbf{Y}_1, ldots, mathbf{X}_nmathbf{Y}_n

X1Y1,,XnYn,形状为

a

×

c

atimes c

a×c。因此,[假定两个张量的形状分别是

(

n

,

a

,

b

)

(n,a,b)

(n,a,b)

(

n

,

b

,

c

)

(n,b,c)

(n,b,c),它们的批量矩阵乘法输出的形状为

(

n

,

a

,

c

)

(n,a,c)

(n,a,c)]。

# 批量矩阵乘法
X = torch.ones((3, 1, 5))
Y = torch.ones((3, 5, 9))
# torch.Size([3, 1, 9])
torch.bmm(X, Y).shape

# 小批量矩阵乘法
weights = torch.ones((2, 10)) * 0.1
values = torch.arange(20.0).reshape((2, 10))
torch.bmm(weights.unsqueeze(1), values.unsqueeze(-1)).shape
# torch.Size([2, 1, 1])

非参数的Nadaraya-Watson核回归具有一致性(consistency)的优点:如果有足够的数据,此模型会收敛到最优结果。尽管如此,我们还是可以轻松地将可学习的参数集成到注意力汇聚中。

例如,与2.2模型略有不同,在下面的查询

x

x

x和键

x

i

x_i

xi之间的距离乘以可学习参数

w

w

w

f

(

x

)

=

i

=

1

n

α

(

x

,

x

i

)

y

i

=

i

=

1

n

exp

(

1

2

(

(

x

x

i

)

w

)

2

)

j

=

1

n

exp

(

1

2

(

(

x

x

j

)

w

)

2

)

y

i

=

i

=

1

n

s

o

f

t

m

a

x

(

1

2

(

(

x

x

i

)

w

)

2

)

y

i

.

begin{aligned}f(x) &= sum_{i=1}^n alpha(x, x_i) y_i \&= sum_{i=1}^n frac{expleft(-frac{1}{2}((x - x_i)w)^2right)}{sum_{j=1}^n expleft(-frac{1}{2}((x - x_j)w)^2right)} y_i \&= sum_{i=1}^n mathrm{softmax}left(-frac{1}{2}((x - x_i)w)^2right) y_i.end{aligned}

f(x)=i=1nα(x,xi)yi=i=1nj=1nexp(21((xxj)w)2)exp(21((xxi)w)2)yi=i=1nsoftmax(21((xxi)w)2)yi.

# 1. 定义模型
class NWKernelRegression(nn.Module):
    def __init__(self, **kwargs):
        super().__init__(**kwargs)
        self.w = nn.Parameter(torch.rand((1,), requires_grad=True))

    def forward(self, queries, keys, values):
        # queries和attention_weights的形状为(查询个数,“键-值”对个数)
        queries = queries.repeat_interleave(keys.shape[1]).reshape((-1, keys.shape[1]))
        self.attention_weights = nn.functional.softmax(
            -((queries - keys) * self.w)**2 / 2, dim=1)
        # values的形状为(查询个数,“键-值”对个数)
        return torch.bmm(self.attention_weights.unsqueeze(1),
                         values.unsqueeze(-1)).reshape(-1)

# 2. model train
# X_tile的形状:(n_train,n_train),每一行都包含着相同的训练输入
X_tile = x_train.repeat((n_train, 1))
# Y_tile的形状:(n_train,n_train),每一行都包含着相同的训练输出
Y_tile = y_train.repeat((n_train, 1))
# keys的形状:('n_train','n_train'-1)
keys = X_tile[(1 - torch.eye(n_train)).type(torch.bool)].reshape((n_train, -1))
# values的形状:('n_train','n_train'-1)
values = Y_tile[(1 - torch.eye(n_train)).type(torch.bool)].reshape((n_train, -1))

net = NWKernelRegression()
loss = nn.MSELoss(reduction='none')
trainer = torch.optim.SGD(net.parameters(), lr=0.5)
animator = d2l.Animator(xlabel='epoch', ylabel='loss', xlim=[1, 5])

for epoch in range(5):
    trainer.zero_grad()
    l = loss(net(x_train, keys, values), y_train)
    l.sum().backward()
    trainer.step()
    print(f'epoch {epoch + 1}, loss {float(l.sum()):.6f}')
    animator.add(epoch + 1, float(l.sum()))

使用平方损失函数和随机梯度下降进行训练。
在这里插入图片描述
分析上图:在拟合带噪声的数据时,预测的曲线没有之前非参数模型的预测曲线平滑。因为前者加入可学习的参数后,曲线在注意力权重较大的地方变得更加不平滑。

show_heatmaps(net.attention_weights.unsqueeze(0).unsqueeze(0),
                  xlabel='Sorted training inputs',
                  ylabel='Sorted testing inputs')

在这里插入图片描述

三、注意力评分函数

【小结】

  • 将注意力汇聚的输出计算可以作为值的加权平均,选择不同的注意力评分函数会带来不同的注意力汇聚操作。
  • 当查询和键是不同长度的矢量时,可以使用可加性注意力评分函数。当它们的长度相同时,使用缩放的“点-积”注意力评分函数的计算效率更高。

第二节使用了高斯核来对查询和键之间的关系建模。高斯核指数部分可以视为注意力评分函数(attention scoring function),简称评分函数(scoring function),然后把这个函数的输出结果输入到softmax函数中进行运算。通过上述步骤,将得到与键对应的值的概率分布(即注意力权重)。最后,注意力汇聚的输出就是基于这些注意力权重的值的加权和。

从宏观来看,上述算法可以用来实现对应的注意力机制框架。说明了如何将注意力汇聚的输出计算成为值的加权和,其中

a

a

a表示注意力评分函数。由于注意力权重是概率分布,因此加权和其本质上是加权平均值
在这里插入图片描述
用数学语言描述,假设有一个查询

q

R

q

mathbf{q} in mathbb{R}^q

qRq

m

m

m个“键-值”对

(

k

1

,

v

1

)

,

,

(

k

m

,

v

m

)

(mathbf{k}_1,mathbf{v}_1), ldots, (mathbf{k}_m, mathbf{v}_m)

(k1,v1),,(km,vm),其中

k

i

R

k

mathbf{k}_i in mathbb{R}^k

kiRk

v

i

R

v

mathbf{v}_i in mathbb{R}^v

viRv。注意力汇聚函数

f

f

f就被表示成值的加权和:

f

(

q

,

(

k

1

,

v

1

)

,

,

(

k

m

,

v

m

)

)

=

i

=

1

m

α

(

q

,

k

i

)

v

i

R

v

,

f(mathbf{q}, (mathbf{k}_1, mathbf{v}_1), ldots, (mathbf{k}_m, mathbf{v}_m)) = sum_{i=1}^m alpha(mathbf{q}, mathbf{k}_i) mathbf{v}_i in mathbb{R}^v,

f(q,(k1,v1),,(km,vm))=i=1mα(q,ki)viRv,

其中查询

q

mathbf{q}

q和键

k

i

mathbf{k}_i

ki的注意力权重(标量)是通过注意力评分函数

a

a

a将两个向量映射成标量,再经过softmax运算得到的:

α

(

q

,

k

i

)

=

s

o

f

t

m

a

x

(

a

(

q

,

k

i

)

)

=

exp

(

a

(

q

,

k

i

)

)

j

=

1

m

exp

(

a

(

q

,

k

j

)

)

R

.

alpha(mathbf{q}, mathbf{k}_i) = mathrm{softmax}(a(mathbf{q}, mathbf{k}_i)) = frac{exp(a(mathbf{q}, mathbf{k}_i))}{sum_{j=1}^m exp(a(mathbf{q}, mathbf{k}_j))} in mathbb{R}.

α(q,ki)=softmax(a(q,ki))=j=1mexp(a(q,kj))exp(a(q,ki))R.

正如上图所示,选择不同的注意力评分函数

a

a

a会导致不同的注意力汇聚操作。本节将介绍两个流行的评分函数,稍后将用他们来实现更复杂的注意力机制。


四、Bahdanau 注意力

【小结】

  • 在预测词元时,如果不是所有输入词元都是相关的,那么具有Bahdanau注意力的循环神经网络编码器-解码器会有选择地统计输入序列的不同部分。这是通过将上下文变量视为加性注意力池化的输出来实现的。
  • 在循环神经网络编码器-解码器中,Bahdanau注意力将上一时间步的解码器隐状态视为查询,在所有时间步的编码器隐状态同时视为键和值。

在这里插入图片描述


五、多头注意力

【小结】

  • 多头注意力融合了来自于多个注意力汇聚的不同知识,这些知识的不同来源于相同的查询、键和值的不同的子空间表示。
  • 基于适当的张量操作,可以实现多头注意力的并行计算。

在这里插入图片描述
在实现多头注意力之前,让我们用数学语言将这个模型形式化地描述出来。
给定查询

q

R

d

q

mathbf{q} in mathbb{R}^{d_q}

qRdq、键

k

R

d

k

mathbf{k} in mathbb{R}^{d_k}

kRdk和值

v

R

d

v

mathbf{v} in mathbb{R}^{d_v}

vRdv,每个注意力头

h

i

mathbf{h}_i

hi

i

=

1

,

,

h

i = 1, ldots, h

i=1,,h)的计算方法为:

h

i

=

f

(

W

i

(

q

)

q

,

W

i

(

k

)

k

,

W

i

(

v

)

v

)

R

p

v

,

mathbf{h}_i = f(mathbf W_i^{(q)}mathbf q, mathbf W_i^{(k)}mathbf k,mathbf W_i^{(v)}mathbf v) in mathbb R^{p_v},

hi=f(Wi(q)q,Wi(k)k,Wi(v)v)Rpv,

其中,可学习的参数包括

W

i

(

q

)

R

p

q

×

d

q

mathbf W_i^{(q)}inmathbb R^{p_qtimes d_q}

Wi(q)Rpq×dq

W

i

(

k

)

R

p

k

×

d

k

mathbf W_i^{(k)}inmathbb R^{p_ktimes d_k}

Wi(k)Rpk×dk

W

i

(

v

)

R

p

v

×

d

v

mathbf W_i^{(v)}inmathbb R^{p_vtimes d_v}

Wi(v)Rpv×dv,以及代表注意力汇聚的函数

f

f

f

f

f

f可以是第三节中的加性注意力和缩放点积注意力。多头注意力的输出需要经过另一个线性转换,它对应着

h

h

h个头连结后的结果,因此其可学习参数是

W

o

R

p

o

×

h

p

v

mathbf W_oinmathbb R^{p_otimes h p_v}

WoRpo×hpv

W

o

[

h

1

h

h

]

R

p

o

.

mathbf W_o begin{bmatrix}mathbf h_1\vdots\mathbf h_hend{bmatrix} in mathbb{R}^{p_o}.

Wo

h1hh

Rpo.

基于这种设计,每个头都可能会关注输入的不同部分,可以表示比简单加权平均值更复杂的函数。


六、自注意力和位置编码

  • 在自注意力中,查询、键和值都来自同一组输入。
  • 卷积神经网络和自注意力都拥有并行计算的优势,而且自注意力的最大路径长度最短。但是因为其计算复杂度是关于序列长度的二次方,所以在很长的序列中计算会非常慢。
  • 为了使用序列的顺序信息,可以通过在输入表示中添加位置编码,来注入绝对的或相对的位置信息。

6.1 比较卷积神经网络、循环神经网络和自注意力

给定一个由词元组成的输入序列

x

1

,

,

x

n

mathbf{x}_1, ldots, mathbf{x}_n

x1,,xn,其中任意

x

i

R

d

mathbf{x}_i in mathbb{R}^d

xiRd

1

i

n

1 leq i leq n

1in)。该序列的自注意力输出为一个长度相同的序列

y

1

,

,

y

n

mathbf{y}_1, ldots, mathbf{y}_n

y1,,yn,其中:

y

i

=

f

(

x

i

,

(

x

1

,

x

1

)

,

,

(

x

n

,

x

n

)

)

R

d

mathbf{y}_i = f(mathbf{x}_i, (mathbf{x}_1, mathbf{x}_1), ldots, (mathbf{x}_n, mathbf{x}_n)) in mathbb{R}^d

yi=f(xi,(x1,x1),,(xn,xn))Rd

根据之前定义的注意力汇聚函数

f

f

f

f

(

x

)

=

i

=

1

n

α

(

x

,

x

i

)

y

i

f(x)=sum_{i=1}^n alphaleft(x, x_iright) y_i

f(x)=i=1nα(x,xi)yi
下面的代码片段是基于多头注意力对一个张量完成自注意力的计算,张量的形状为(批量大小,时间步的数目或词元序列的长度,

d

d

d)。输出与输入的张量形状相同。
在这里插入图片描述


6.2 位置编码

在处理词元序列时,循环神经网络是逐个的重复地处理词元的,而自注意力则因为并行计算而放弃了顺序操作。为了使用序列的顺序信息,通过在输入表示中添加位置编码(positional encoding)来注入绝对的或相对的位置信息。位置编码可以通过学习得到也可以直接固定得到。接下来描述的是基于正弦函数和余弦函数的固定位置编码( (Vaswani et al., 2017)。)。

假设输入表示

X

R

n

×

d

mathbf{X} in mathbb{R}^{n times d}

XRn×d包含一个序列中

n

n

n个词元的

d

d

d维嵌入表示。位置编码使用相同形状的位置嵌入矩阵

P

R

n

×

d

mathbf{P} in mathbb{R}^{n times d}

PRn×d输出

X

+

P

mathbf{X} + mathbf{P}

X+P,矩阵第

i

i

i行、第

2

j

2j

2j列和

2

j

+

1

2j+1

2j+1列上的元素为:

p

i

,

2

j

=

sin

(

i

1000

0

2

j

/

d

)

,

p

i

,

2

j

+

1

=

cos

(

i

1000

0

2

j

/

d

)

.

begin{aligned} p_{i, 2j} &= sinleft(frac{i}{10000^{2j/d}}right),\p_{i, 2j+1} &= cosleft(frac{i}{10000^{2j/d}}right).end{aligned}

pi,2jpi,2j+1=sin(100002j/di),=cos(100002j/di).

在解释这个设计之前,让我们先在下面的PositionalEncoding类中实现它。

(1)绝对位置编码

(2)相对位置编码

除了捕获绝对位置信息之外,上述的位置编码还允许模型学习得到输入序列中相对位置信息。这是因为对于任何确定的位置偏移

δ

delta

δ,位置

i

+

δ

i + delta

i+δ处的位置编码可以线性投影位置

i

i

i处的位置编码来表示。

这种投影的数学解释是,令

ω

j

=

1

/

1000

0

2

j

/

d

omega_j = 1/10000^{2j/d}

ωj=1/100002j/d,对于任何确定的位置偏移

δ

delta

δ,中的任何一对

(

p

i

,

2

j

,

p

i

,

2

j

+

1

)

(p_{i, 2j}, p_{i, 2j+1})

(pi,2j,pi,2j+1)都可以线性投影到

(

p

i

+

δ

,

2

j

,

p

i

+

δ

,

2

j

+

1

)

(p_{i+delta, 2j}, p_{i+delta, 2j+1})

(pi+δ,2j,pi+δ,2j+1)

[

cos

(

δ

ω

j

)

sin

(

δ

ω

j

)

sin

(

δ

ω

j

)

cos

(

δ

ω

j

)

]

[

p

i

,

2

j

p

i

,

2

j

+

1

]

=

[

cos

(

δ

ω

j

)

sin

(

i

ω

j

)

+

sin

(

δ

ω

j

)

cos

(

i

ω

j

)

sin

(

δ

ω

j

)

sin

(

i

ω

j

)

+

cos

(

δ

ω

j

)

cos

(

i

ω

j

)

]

=

[

sin

(

(

i

+

δ

)

ω

j

)

cos

(

(

i

+

δ

)

ω

j

)

]

=

[

p

i

+

δ

,

2

j

p

i

+

δ

,

2

j

+

1

]

,

begin{aligned} &begin{bmatrix} cos(delta omega_j) & sin(delta omega_j) \ -sin(delta omega_j) & cos(delta omega_j) \ end{bmatrix} begin{bmatrix} p_{i, 2j} \ p_{i, 2j+1} \ end{bmatrix}\ =&begin{bmatrix} cos(delta omega_j) sin(i omega_j) + sin(delta omega_j) cos(i omega_j) \ -sin(delta omega_j) sin(i omega_j) + cos(delta omega_j) cos(i omega_j) \ end{bmatrix}\ =&begin{bmatrix} sinleft((i+delta) omega_jright) \ cosleft((i+delta) omega_jright) \ end{bmatrix}\ =& begin{bmatrix} p_{i+delta, 2j} \ p_{i+delta, 2j+1} \ end{bmatrix}, end{aligned}

===[cos(δωj)sin(δωj)sin(δωj)cos(δωj)][pi,2jpi,2j+1][cos(δωj)sin(iωj)+sin(δωj)cos(iωj)sin(δωj)sin(iωj)+cos(δωj)cos(iωj)][sin((i+δ)ωj)cos((i+δ)ωj)][pi+δ,2jpi+δ,2j+1],

2

×

2

2times 2

2×2投影矩阵不依赖于任何位置的索引

i

i

i

七、Transformer架构

  • Transformer是编码器-解码器架构的一个实践,尽管在实际情况中编码器或解码器可以单独使用。
  • 在Transformer中,多头自注意力用于表示输入序列和输出序列,不过解码器必须通过掩蔽机制来保留自回归属性。
  • Transformer中的残差连接和层规范化是训练非常深度模型的重要工具。
  • Transformer模型中基于位置的前馈网络使用同一个多层感知机,作用是对所有序列位置的表示进行转换。

在这里插入图片描述


八、简单栗子


时间安排

打卡日:19号周日、21号周二、23号周四、28号周二、30号周四。

内容 任务 预估天数 任务时间 完成情况
task1 dl基础+CP10-注意力机制(一) 一天 3月19号周日 完成
task2 CP10-注意力机制(二)10.1-10.4 两天 3月20、21号周二
task3 CP10-注意力机制(三) 10.5-10.7 两天 3月22号周三、23号周四
task4 CP14-预训练(一)14.8-14.9 两天 3月24号周五、25号周六
task5 CP14-预训练(二) 14.10 两天 3月26周日、27、28周二
task6 CP15-NLP应用15.4-15.5 两天 3月29号、30号周四

Reference

[1] 动手学深度学习.李沐
[2] 动手学深度学习-文本处理
[3] 动手学深度学习-注意力机制CP10
[4] https://discuss.d2l.ai
[5] 教材:https://zh-v2.d2l.ai/
[6] 视频: https://space.bilibili.com/1567748478/channel/seriesdetail?sid=358497
[7] 笔记:https://github.com/MLNLP-World/DeepLearning-MuLi-Notes/tree/main/notes
[8] 竞赛:https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281973.0.0.7c47106baWMBl3
[9] OpenI:https://openi.pcl.ac.cn/Datawhale/d2l
[10] 注意力汇聚:Nadaraya-Watson 核回归——动手学dl的讨论区

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
https://www.bilibili.com/video/BV1MY4y1R7EN/?spm_id_from=333.1007.top_right_bar_window_history.content.click&vd_source=fe81b6bdf8b81519f6d7d59ca0843546

)">
下一篇>>