word2vec简单总结

admin • 2022-07-21 12:14 • 人工智能

一、Skip-Gram

Skip-Gram 模型假设中心词可以用来生成上下文词。

词表中的每个词都由两个

$d$ 维向量来表示，具体来说，对于索引为

$i$ 的词，我们分别用

boldsymbol{v}_i,boldsymbol{u}_i

$v_{i}, u_{i}$ 表示其用作中心词和上下文词的两个向量。

设词

w_o

$w_{o}$ 位于中心词

w_c

$w_{c}$ 的上下文窗口内，则

(

∣

)

exp

⁡

(

′

)

∑

∈

exp

⁡

(

′

)

P(w_o|w_c)=frac{exp(boldsymbol{u}_o'boldsymbol{v}_c)}{sum_{iin mathcal{V}}exp(boldsymbol{u}_i'boldsymbol{v}_c)}

$P (w_{o} ∣ w_{c}) = \frac{exp ( u _{o'} v _{c} )}{\sum _{i \in V} exp ( u _{i'} v _{c} )}$

其中

{

⋯

∣

−

}

mathcal{V}={0,1,cdots,|mathcal{V}|-1}

$V = {0, 1, \dots, ∣ V ∣ - 1}$ 是词表的索引集。

设上下文窗口大小为

$m$ ，则 Skip-Gram 模型的似然函数为

∏

−

≤

≠

(

∣

)

mathcal{L}=prod_{t=1}^T prod_{-mleq jleq m,jneq 0}P(w_{t+j}|w_t)

$L = t = 1 \prod T - m \leq j \leq m, j \neq = 0 \prod P (w_{t + j} ∣ w_{t})$

最大化

mathcal{L}

$L$ 等价于最小化

−

log

⁡

-logmathcal{L}

$- lo g L$ ，即

−

∑

−

≤

≠

log

⁡

(

∣

)

-sum_{t=1}^Tsum_{-mleq jleq m,jneq 0}log P(w_{t+j}|w_t)

$- t = 1 \sum T - m \leq j \leq m, j \neq = 0 \sum lo g P (w_{t + j} ∣ w_{t})$

二、CBOW

与 Skip-Gram 相反，CBOW 模型假设上下文词可以用来生成中心词。

设上下文窗口大小为

$m$ ，则上下文词的数量为

$2 m$ 。在计算条件概率时我们通常会对这些上下文词取平均，即

‾

∑

≤

∣

≤

overline{boldsymbol{v}_o}=frac{1}{2m}sum_{1leq|i|leq m}boldsymbol{v}_{c+i}

$v_{o} = \frac{1}{2 m} 1 \leq ∣ i ∣ \leq m \sum v_{c + i}$

记

(

)

{

−

⋯

−

⋯

}

mathcal{W}_{o(c)}={boldsymbol{v}_{c-m},cdots,boldsymbol{v}_{c-1},boldsymbol{v}_{c+1},cdots,boldsymbol{v}_{c+m}}

$W_{o (c)} = {v_{c - m}, \dots, v_{c - 1}, v_{c + 1}, \dots, v_{c + m}}$ ，则

(

∣

(

)

exp

⁡

(

′

‾

)

∑

∈

exp

⁡

(

′

‾

)

P(w_c|mathcal{W}_{o(c)})=frac{exp(boldsymbol{u}_c'overline{boldsymbol{v}_o})}{sum_{iinmathcal{V}}exp(boldsymbol{u}_i'overline{boldsymbol{v}_o})}

$P (w_{c} ∣ W_{o (c)}) = \frac{exp ( u _{c'} v _{o} )}{\sum _{i \in V} exp ( u _{i'} v _{o} )}$

CBOW 模型的似然函数为

∏

(

∣

(

)

mathcal{L}=prod_{t=1}^T P(w_c|mathcal{W}_{o(c)})

$L = t = 1 \prod T P (w_{c} ∣ W_{o (c)})$

三、Gensim实现

? 相关文档：https://radimrehurek.com/gensim/models/word2vec.html

先导入接下来所需要用到的包：

from gensim.models import Word2Vec, KeyedVectors
from gensim.test.utils import common_texts
import gensim.downloader as api

我们可以使用 gensim 自带的 Word2Vec 来实现相关计算：

sentences = [['first', 'sentence'], ['second', 'sentence']]
# 词向量维度是5
# 出现次数低于1的单词会被丢弃
# 使用4个线程训练
model = Word2Vec(sentences=sentences, vector_size=5, min_count=1, workers=4)
word_vectors = model.wv
# 训练结束后可查看词向量
print(word_vectors['sentence'])
# [-0.01072454  0.00472863  0.10206699  0.18018547 -0.186059  ]

训练完成后，可以保存模型以便下次使用

model.save('word2vec.model')  # 保存模型
model = Word2Vec.load('word2vec.model')  # 读取模型

当然也可以保存训练好的词向量

word_vectors.save("word2vec.wordvectors")  # 保存词向量
word_vectors = KeyedVectors.load("word2vec.wordvectors", mmap='r')  # 读取词向量，r代表只读

我们还可以查看与某个单词最相似的几个单词

model = Word2Vec(sentences=common_texts, vector_size=5, min_count=1)
sims = model.wv.most_similar('computer', topn=3)
print(sims)
# [('minors', 0.4151746332645416), ('time', 0.18495501577854156), ('interface', 0.05030104145407677)]

使用现成的预训练模型：

word_vectors = api.load('glove-twitter-25')
print(word_vectors.most_similar('twitter', topn=10))
# [('facebook', 0.948005199432373), ('tweet', 0.9403423070907593), ('fb', 0.9342358708381653), ('instagram', 0.9104824066162109), ('chat', 0.8964965343475342), ('hashtag', 0.8885937333106995), ('tweets', 0.8878158330917358), ('tl', 0.8778461217880249), ('link', 0.877821147441864), ('internet', 0.8753896355628967)]

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。

THE END

word2vec 人工智能机器学习

二维码

从零开始实现一个简单的CycleGAN项目

< <上一篇

深入浅出 Yolo 系列之 Yolov7 基础网络结构详解

下一篇>>

搜索内容

word2vec简单总结

目录

一、Skip-Gram

二、CBOW

三、Gensim实现

最新文章

分类

标签云