强化学习——格子游戏问题


前言

这是一道2020-2021国科大高级人工智能期末考试的一道格子题


一、题目描述

每一个格子等概率向着4个方向移动,每次移动一步,收益为 -1 ,移动到出口结束游戏。若当前移动会导致出界,则移动后位置不变:
黄色是出口。
在这里插入图片描述

二、计算过程

在这里插入图片描述

1.策略评估

利用动态规划的方法求当前策略下每个格子估值

在这里插入图片描述

2.策略提升

根据每个格子的估值求对应的贪心策略

在这里插入图片描述

3.最优策略

根据第二问得到的贪心策略,列出方程组并求解
在这里插入图片描述
得到新的状态估值
在这里插入图片描述
根据新的状态估值得到新的贪心策略
在这里插入图片描述
根据新的贪心策略,列出在此贪心策略下的方程组
在这里插入图片描述

到此计算发现:v1、v2、v3、v4状态估值不变,则最优策略与其相对应状态估值如下:
在这里插入图片描述 在这里插入图片描述

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>