强化学习（三）—— 策略学习（Policy-Based）及策略梯度（Policy Gradient）

admin • 2022-03-30 08:10 • 人工智能

强化学习（三）—— 策略学习（Policy-Based）及策略梯度（Policy Gradient）

1. 策略学习
2. 策略梯度
3. 案例

1. 策略学习

Policy Network

通过策略网络近似策略函数
$π(a|s_t)≈π(a|s_t;theta) π(a∣st)≈π(a∣st;θ)$
状态价值函数及其近似
$V_π(s_t)=sum_aπ(a|s_t)Q_π(s_t,a) Vπ(st)=a∑π(a∣st)Qπ(st,a) V ( s t ; θ ) = ∑ a π ( a ∣ s t ; θ ) ⋅ Q π ( s t , a ) V(s_t;theta)=sum_aπ(a|s_t;theta)·Q_π(s_t,a) V(st;θ)=a∑π(a∣st;θ)⋅Qπ(st,a)$
策略学习最大化的目标函数
$J(theta)=E_S[V(S;theta)] J(θ)=ES[V(S;θ)]$
依据策略梯度上升进行
$θ ← θ + β ⋅ ∂ V ( s ; θ ) ∂ θ thetagetstheta+beta·frac{partial V(s;theta)}{partial theta}$

2. 策略梯度

Policy Gradient

∂

(

;

)

∑

(

)

∂

(

∣

;

)

∂

∫

(

)

∂

(

∣

;

)

∂

∑

(

∣

;

)

⋅

(

)

∂

[

(

∣

;

)

]

∂

∼

(

∣

;

)

[

(

)

∂

[

(

∣

;

)

]

∂

]

≈

(

)

∂

[

(

∣

;

)

]

∂

frac{partial V(s;theta)}{theta}=sum_a{Q_pi(s,a)frac{partialpi(a|s;theta)}{partialtheta}}\=int_a{Q_pi(s,a)frac{partialpi(a|s;theta)}{partialtheta}}\=sum_a{pi(a|s;theta)·Q_pi(s,a)frac{partial ln[pi(a|s;theta)]}{partialtheta}}\=E_{Asimpi(a|s;theta)}[Q_pi(s,A)frac{partial ln[pi(A|s;theta)]}{partialtheta}]\≈Q_pi(s_t,a_t)frac{partial ln[pi(a_t|s_t;theta)]}{partialtheta}

$\frac{\partial V ( s ; θ )}{θ} = a \sum Q_{π} (s, a) \frac{\partial π ( a ∣ s ; θ )}{\partial θ} = \int_{a} Q_{π} (s, a) \frac{\partial π ( a ∣ s ; θ )}{\partial θ} = a \sum π (a ∣ s; θ) \cdot Q_{π} (s, a) \frac{\partial l n [ π ( a ∣ s ; θ ) ]}{\partial θ} = E_{A \sim π (a ∣ s; θ)} [Q_{π} (s, A) \frac{\partial l n [ π ( A ∣ s ; θ ) ]}{\partial θ}] \approx Q_{π} (s_{t}, a_{t}) \frac{\partial l n [ π ( a _{t} ∣ s _{t} ; θ ) ]}{\partial θ}$

观测得到状态
$s_t st$
依据策略函数随机采样动作
$a_t = pi(a_t|s_t;theta) at=π(at∣st;θ)$
计算价值函数
$q_t = Q_pi(s_t,a_t) qt=Qπ(st,at)$
求取策略网络的梯度
$d_{theta,t}=frac{partial ln[pi(a_t|s_t;theta)]}{partialtheta}|theta=theta_t dθ,t=∂θ∂ln[π(at∣st;θ)]∣θ=θt$
计算近似的策略梯度
$g(a_t,theta _t)=q_t·d_{theta,t} g(at,θt)=qt⋅dθ,t$
更新策略网络
$theta_{t+1}=theta_t+beta·g(a_t,theta_t) θt+1=θt+β⋅g(at,θt)$

3. 案例

目前没有好的方法近似动作价值函数，则未撰写案例。

by CyrusMay 2022 03 29

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。

THE END

python 人工智能强化学习策略梯度算法

二维码

Python进阶——网课不愁系列AI换脸技术

< <上一篇

论文笔记 EMNLP 2021|Uncertain Local-to-Global Networks for Document-Level Event Factuality Identificatio

下一篇>>

搜索内容

强化学习（三）—— 策略学习（Policy-Based）及策略梯度（Policy Gradient）

强化学习（三）—— 策略学习（Policy-Based）及策略梯度（Policy Gradient）

1. 策略学习

2. 策略梯度

3. 案例

最新文章

分类

标签云