论文 | A Neural Probabilistic Language Model

admin • 2022-03-03 08:11 • 人工智能

A Neural Probabilistic Language Model

文章目录

A Neural Probabilistic Language Model
1. Top View
2. Background
3. NNLM (Neural Network Language Model)
代码实现

1. Top View

这篇文章第一次用 “词向量” 和神经网络来解决(统计)语言模型的问题, 作者通过随机初始化一个词库向量corpus matrix (简称

$C$ ) 作为神经网络中的迭代更新的主要参数, 输入进神经网络的每一个词语通过这个

$C$ 的映射成为词向量来表示这个词语的语义信息. 以

$n$ 个词的词向量作为输入,

$n$ 个词后的下一个词的词向量作为输出, 不断训练迭代更新

$C$ , 使得

$C$ 最终可以成功表达这个训练词库中的每个词.

这样的做法解决的问题包括:

在词汇量大的情况下, 以one-hot形式来表达单词会造成很大的开销
再者, 以one-hot形式无法有效地表达出词与词之间在语义或语法上的相似程度(e.g. cat & dog; is & was)
同时也解决了先前工作中基于统计学习方法的n-gram模型出现的"组合爆炸"问题, 以及训练语料库中存在测试条件下不存在的问题

2. Background

有几个前提背景知识需要了解

Language Modeling

如果给你以下一段话，你会在空白处填上什么词语？

“The cat sat on _____.” 空白处可能是 “mats” / “sofa” / …

Language Modeling 的任务就是对语言进行建模, 最终模型可以预测输入句子下一个紧接的词语.

如果从概率的角度对语言建模进行解释, 一个句子每个单词用

x

(

1

)

,

⋯

,

x

(

T

)

x^{(1)},cdots,x^{(T)}

$x^{(1)}, \dots, x^{(T)}$ 表示, 组成这个句子的概率就可以表达成

P

(

x

(

1

)

,

⋯

,

x

(

T

)

)

=

P

(

x

(

1

)

)

×

P

(

x

(

2

)

∣

x

(

1

)

)

×

⋯

×

P

(

x

(

T

)

∣

x

(

T

−

1

)

,

⋯

,

x

(

1

)

)

=

∏

t

=

1

T

P

(

x

(

t

)

∣

x

(

t

−

1

)

,

⋯

,

x

1

)

begin{aligned} P(x^{(1)},cdots,x^{(T)})&=P(x^{(1)})times P(x^{(2)}|x^{(1)})timescdotstimes P(x^{(T)}|x^{(T-1)},cdots,x^{(1)}) \ &=prod^{T}_{t=1}{P(x^{(t)}|x^{(t-1)},cdots,x^{1}}) end{aligned}

$P (x^{(1)}, \dots, x^{(T)}) = P (x^{(1)}) \times P (x^{(2)} ∣ x^{(1)}) \times \dots \times P (x^{(T)} ∣ x^{(T - 1)}, \dots, x^{(1)}) = t = 1 \prod T P (x^{(t)} ∣ x^{(t - 1)}, \dots, x^{1})$
( 这里的概率是在给出的词库(数据集)中进行统计得到的概率 )

举个例子就是

P(‘The’, ‘cat’, ‘sat’, ‘on’, ‘mats’) =

P(‘The’) x P(‘cat’|‘The’) x P(‘sat’|‘cat’, ‘The’) x P(‘on’|‘sat’, ‘cat’, ‘The’) x P(‘mats’ |‘on’, ‘sat’, ‘cat’, ‘The’)
n-gram Language Model

上述例子只是一个很简单的例子,在现实中可能面对的情况往往是很多个单词, 可能是10几个单词, 组成的句子, 这时候进行概率统计的计算量就会非常的大. n-gram作了一个很强的假设, 它利用了1. 词序和2. 词与词之间存在的语义关系 (如鸟-飞; 猫-跳; 狗-叫), 假设对在一个句子中,如果要对下一个单词进行预测, 只需基于最后

n

n

$n$ 个词语进行概率预测, 即:

p

^

(

w

t

∣

w

1

t

−

1

)

≈

p

^

(

w

t

∣

w

t

−

n

+

1

t

−

1

)

hat{p}(w_t|w_1^{t-1})approxhat{p}(w_t|w_{t-n+1}^{t-1})

$p^(w_{t} ∣ w_{1 t - 1}) \approx p^(w_{t} ∣ w_{t - n + 1 t - 1})$

3. NNLM (Neural Network Language Model)

1. 输入层

图1.输入层

首先传进来的是

2. 映射层

图2.映射层

根据索引向量中每个词的索引, 在corpus matrix
其中
如果是一个包含1000个单词的词库 [‘dog’, ‘cat’, ‘baby’, … ] ,
而每个单词通过
注意! 这里的

3. 隐藏层 (

图3.隐藏层

得到 $x=(C(w_{t-1}), C(w_{t-2}),cdots, C(_{w-n+1}))) x=(C(wt−1),C(wt−2),⋯,C(w−n+1))), 大小为 ( n − 1 ) m (n-1)m (n−1)m$
将拼接后的向量
x

x

$x$ 输入给

t

a

n

h

(

)

tanh()

$t a n h ()$ 激活函数
- 实际上, 在
- 再加上隐藏层偏差
假设

4. 输出层 (

图4.输出层

隐藏层输出
t

a

n

h

(

)

tanh()

$t a n h ()$ , 乘上权重加上偏差后得到可以直接传入

s

o

f

t

m

a

x

softmax

$s o f t m a x$ 层进行概率计算
- 在传入
- 再加上大小为
经过

5. Option (直连边)

在文章中, 作者还提到一部分为 “直连” 部分, 即上图中虚线部分, 由

(

)

C(i)

$C (i)$ 直接映射到

Output

$O u t p u t$ 的连接.

这部分作者设置了一个权重

$W$ , 直接乘以

$x$ , 加到最后的隐藏层输出中, 一并传入到

softmax

$s o f t m a x$ 中计算, 最后得到:

(

)

y=b+Wx+Utanh(d+Hx)

$y = b + W x + U t a n h (d + H x)$
文章中, 作者提到:

" When no direct connections from word features to outputs are desired, the matrix

W

W

$W$ is set to

0

0

$0$ "

直连边好像是一个改善神经网络的trick, 并没有进一步探讨.

6. 汇总

symbol	shape	illustrate



		隐藏层权重
		隐藏层偏差
		直连边权重

代码实现

数据集与代码均已上传到 gitee仓库, 仅供参考学习~ ?
论文下载地址
(0积分直接下载即可，来源地址)

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。

THE END

机器学习深度学习自然语言处理

二维码

算法设计与分析实验三回溯法求解地图填色问题

< <上一篇

李宏毅2021&2022机器学习

下一篇>>

搜索内容

论文 | A Neural Probabilistic Language Model

A Neural Probabilistic Language Model

文章目录

1. Top View

2. Background

3. NNLM (Neural Network Language Model)

1. 输入层

2. 映射层

3. 隐藏层 (

4. 输出层 (

5. Option (直连边)

6. 汇总

代码实现

最新文章

分类

标签云

论文 | A Neural Probabilistic Language Model

A Neural Probabilistic Language Model

文章目录

1. Top View

2. Background

3. NNLM (Neural Network Language Model)

1. 输入层

2. 映射层

3. 隐藏层 ( t a n h tanh tanh 层)

4. 输出层 ( s o f t m a x softmax softmax 层)

5. Option (直连边)

6. 汇总

代码实现

最新文章

分类

标签云

3. 隐藏层 (

4. 输出层 (