15. 蒙特卡诺简介

1. 什么是蒙特卡诺?

  • Monte Carlo是一种基于概率与统计学的算法;
  • 该方法是通过大量随机实验,利用统计学方法获得领域问题中的随机过程的接近真实的分布;
  • 该方法的优势在于通用性,不受领域知识的限制

2. 何时使用蒙特卡洛方法?

根据贝尔曼期望方程和最优方程可知,要通过动态规划的方式求解最优策略,必须首先知道立即回报期望矩阵

R

R

R和状态转移数组

P

P

P,否则,无法求解状态值函数

V

(

s

)

V(s)

V(s)及行为值函数

Q

(

s

,

a

)

Q(s,a)

Q(s,a),而实际中,智能体往往不知道环境动力学(即R、P都未知)。在这种情况下,可以考虑使用蒙特卡洛方法,根据

V

(

s

)

V(s)

V(s)

Q

(

s

,

a

)

Q(s,a)

Q(s,a)的定义,通过与环境的交互,进行随机抽样,并统计结果,从而得到接近真实

V

(

s

)

V(s)

V(s)

Q

(

s

,

a

)

Q(s,a)

Q(s,a)的真实分布,在此基础上,进行策略改进。
一句话:当环境模型参数R和P未知时,使用蒙特卡洛方法获取状态值函数或行为值函数的估计,在此基础上进行策略改进。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>