强化学习

包含标签：强化学习的文章

" alt="给你一个 PPO × Family 课程，撑起整个决策 AI 宇宙">

人工智能

给你一个 PPO × Family 课程，撑起整个决策 AI 宇宙

序幕童年经典游戏 80、90年代出生的人，红白机总是童年时光重要的记忆片段之一。几叠游戏盒，两个手柄，就可以开启一整天的欢乐时光，乐此不疲地探索各种……

admin 2022-12-02

0
" alt="为什么DQN不需要important sampling？——强化学习">

数据库

为什么DQN不需要important sampling？——强化学习

前言分析这个问题要从重要性采样和target policy的本质出发，本文分为以下三步来介绍DQN为什么不需要重要性采样：重要性采样的目的、target policy和behavi……

admin 2022-10-12

0
人工智能

强化学习入门笔记

强化学习相关概念我们先回忆一下童年，来看看超级玛丽这款游戏在这款游戏里面的，我们需要控制超级玛丽进行左右行走、跳、攻击等动作，来躲避或攻击小……

admin 2022-07-10

0
人工智能

PyTorch强化学习实战（1）——强化学习环境配置与PyTorch基础

PyTorch强化学习实战（1）——强化学习环境配置与PyTorch基础 0. 前言 1. 搭建 PyTorch 环境 2. OpenAI Gym简介与安装 3. 模拟 Atari 环境 4. 模拟 CartPol……

admin 2022-06-01

0
人工智能

强化学习—— 离散与连续动作空间（随机策略梯度与确定策略梯度）

强化学习—— 离散与连续动作空间（随机策略梯度与确定策略梯度） 1. 动作空间 1.1 离散动作空间 1.2 连续动作空间 2. 确定策略梯度做连续控制 2.1 确……

admin 2022-04-14

0
人工智能

强化学习—— 经验回放（Experience Replay）

强化学习—— 经验回放（Experience Replay） 1、DQN的缺点 1.1 DQN 1.2 DQN的不足 1.2.1 经验浪费 1.2.2 相关更新（correlated update） 2 经验回放……

admin 2022-04-11

0
人工智能

强化学习—— TD算法（Sarsa算法+Q-learning算法）

强化学习—— TD算法（Sarsa算法+Q-learning算法） 1. Sarsa算法 1.1 TD Target 1.2 表格形式的Sarsa算法 1.3 神经网络形式的Sarsa算法 2. Q-learning算……

admin 2022-04-10

0
人工智能

强化学习（四）—— Actor-Critic

强化学习（四）—— Actor-Critic 1. 网络结构 2. 网络函数 3. 策略网络的更新-策略梯度 4. 价值网络的更新-时序差分（TD） 5. 网络训练流程 6. 案例 1. ……

admin 2022-03-31

0
人工智能

强化学习（三）—— 策略学习（Policy-Based）及策略梯度（Policy Gradient）

强化学习（三）—— 策略学习（Policy-Based）及策略梯度（Policy Gradient） 1. 策略学习 2. 策略梯度 3. 案例 1. 策略学习 Policy Network 通过策略网……

admin 2022-03-30

0
人工智能

强化学习（二）—— 价值学习（Value-Based）及DQN

强化学习（二）—— 价值学习（Value-Based）及DQN 1. DQN介绍 2. TD算法介绍 3. 案例 1. DQN介绍 Deep Q Network 目标：最大化累计奖励（回报U）通过……

admin 2022-03-29

0

搜索内容

给你一个 PPO × Family 课程，撑起整个决策 AI 宇宙

为什么DQN不需要important sampling？——强化学习

强化学习入门笔记

PyTorch强化学习实战（1）——强化学习环境配置与PyTorch基础

强化学习—— 离散与连续动作空间（随机策略梯度与确定策略梯度）

强化学习—— 经验回放（Experience Replay）

强化学习—— TD算法（Sarsa算法+Q-learning算法）

强化学习（四）—— Actor-Critic

强化学习（三）—— 策略学习（Policy-Based）及策略梯度（Policy Gradient）

强化学习（二）—— 价值学习（Value-Based）及DQN

最新文章

分类

标签云