包含标签:强化学习 的文章
-
给你一个 PPO × Family 课程,撑起整个决策 AI 宇宙
序幕 童年经典游戏 80、90年代出生的人,红白机总是童年时光重要的记忆片段之一。几叠游戏盒,两个手柄,就可以开启一整天的欢乐时光,乐此不疲地探索各种…… -
为什么DQN不需要important sampling?——强化学习
前言 分析这个问题要从重要性采样和target policy的本质出发,本文分为以下三步来介绍DQN为什么不需要重要性采样:重要性采样的目的、target policy和behavi…… -
-
PyTorch强化学习实战(1)——强化学习环境配置与PyTorch基础
PyTorch强化学习实战(1)——强化学习环境配置与PyTorch基础 0. 前言 1. 搭建 PyTorch 环境 2. OpenAI Gym简介与安装 3. 模拟 Atari 环境 4. 模拟 CartPol…… -
强化学习—— 离散与连续动作空间(随机策略梯度与确定策略梯度)
强化学习—— 离散与连续动作空间(随机策略梯度与确定策略梯度) 1. 动作空间 1.1 离散动作空间 1.2 连续动作空间 2. 确定策略梯度做连续控制 2.1 确…… -
强化学习—— 经验回放(Experience Replay)
强化学习—— 经验回放(Experience Replay) 1、DQN的缺点 1.1 DQN 1.2 DQN的不足 1.2.1 经验浪费 1.2.2 相关更新(correlated update) 2 经验回放…… -
强化学习—— TD算法(Sarsa算法+Q-learning算法)
强化学习—— TD算法(Sarsa算法+Q-learning算法) 1. Sarsa算法 1.1 TD Target 1.2 表格形式的Sarsa算法 1.3 神经网络形式的Sarsa算法 2. Q-learning算…… -
强化学习(四)—— Actor-Critic
强化学习(四)—— Actor-Critic 1. 网络结构 2. 网络函数 3. 策略网络的更新-策略梯度 4. 价值网络的更新-时序差分(TD) 5. 网络训练流程 6. 案例 1. …… -
强化学习(三)—— 策略学习(Policy-Based)及策略梯度(Policy Gradient)
强化学习(三)—— 策略学习(Policy-Based)及策略梯度(Policy Gradient) 1. 策略学习 2. 策略梯度 3. 案例 1. 策略学习 Policy Network 通过策略网…… -
强化学习(二)—— 价值学习(Value-Based)及DQN
强化学习(二)—— 价值学习(Value-Based)及DQN 1. DQN介绍 2. TD算法介绍 3. 案例 1. DQN介绍 Deep Q Network 目标:最大化累计奖励(回报U) 通过……