包含标签:强化学习 的文章
-
强化学习—— 离散与连续动作空间(随机策略梯度与确定策略梯度)
强化学习—— 离散与连续动作空间(随机策略梯度与确定策略梯度) 1. 动作空间 1.1 离散动作空间 1.2 连续动作空间 2. 确定策略梯度做连续控制 2.1 确…… -
强化学习—— 经验回放(Experience Replay)
强化学习—— 经验回放(Experience Replay) 1、DQN的缺点 1.1 DQN 1.2 DQN的不足 1.2.1 经验浪费 1.2.2 相关更新(correlated update) 2 经验回放…… -
强化学习—— TD算法(Sarsa算法+Q-learning算法)
强化学习—— TD算法(Sarsa算法+Q-learning算法) 1. Sarsa算法 1.1 TD Target 1.2 表格形式的Sarsa算法 1.3 神经网络形式的Sarsa算法 2. Q-learning算…… -
强化学习(四)—— Actor-Critic
强化学习(四)—— Actor-Critic 1. 网络结构 2. 网络函数 3. 策略网络的更新-策略梯度 4. 价值网络的更新-时序差分(TD) 5. 网络训练流程 6. 案例 1. …… -
强化学习(三)—— 策略学习(Policy-Based)及策略梯度(Policy Gradient)
强化学习(三)—— 策略学习(Policy-Based)及策略梯度(Policy Gradient) 1. 策略学习 2. 策略梯度 3. 案例 1. 策略学习 Policy Network 通过策略网…… -
强化学习(二)—— 价值学习(Value-Based)及DQN
强化学习(二)—— 价值学习(Value-Based)及DQN 1. DQN介绍 2. TD算法介绍 3. 案例 1. DQN介绍 Deep Q Network 目标:最大化累计奖励(回报U) 通过…… -
-
-
-
强化学习 (Reinforcement Learning)
强化学习: 强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给……