Skip to content

Latest commit

 

History

History
172 lines (129 loc) · 6.49 KB

File metadata and controls

172 lines (129 loc) · 6.49 KB

动画讲解深度强化学习 - 引论

本节目录


1. 强化学习引论

1.1 强化学习的应用

在强化学习中,模型与环境的交互是核心。模型根据环境的反馈进行自我调整,最终学习到最优的行为策略。这使得强化学习在许多应用中表现出色,例如游戏智能体、机器人控制等。

1.2 强化学习的不同之处

与传统的机器学习方法不同,传统机器学习依赖于大量的标注数据和预训练模型来进行学习和预测。 而强化学习则只提供一个环境,模型在环境中活动,通过获得的反馈(奖励或惩罚)作为训练数据进行学习。


2. 马尔可夫链

2.1 背景阐述

在马尔可夫链中,我们模拟了一个环境,其中包含了一个小球和几种特殊方块:

  1. 黑色的方块代表障碍物,小球无法越过。
  2. 绿色方块表示 reward 为正值的终止方格。
  3. 红色方块表示 reward 为负值的终止方格。
  4. 小球可以在邻近的方格内自由移动。

通过分析这些方块的状态,我们定义了状态、价值和操作:

  1. 每次小球移动到新的方格,即为一次操作。
  2. 邻近的方格被视为状态,状态可以是普通状态、终止状态或障碍状态。
  3. 每个方格的数值被称为价值。

因此,我们通过 Bellman 方程来获取周围最大价值: $$V(s) = \max_a \left( V(s') \right)$$

获得最大值的策略即为最优策略。

将该公式扩展,我们可以得到以下值表:

通过分析方格的状态,我们得知,如果小球想要获得最大的奖励 5,则必须避免进入值为 4-1 的方格,并且不能进入墙壁。

2.2 马尔可夫决策

为了避免小球进行无目的的移动,我们需要为每一步操作指定奖励(reward),从而每个方格都被视为一个 Bellman-reward。 进一步优化后,操作将只会朝向价值较高的方格进行。

2.3 折扣效应

在某些情况下,我们可能面临选择:是选择距离远但奖励较高的终止点,还是选择距离近但奖励较低的终止点?

为了解决这个问题,我们引入折扣因子 $\gamma$ 来降低远期奖励的影响,从而获得最佳的结果。 折扣因子的引入类似于通货膨胀后的货币贬值。 新的 Bellman 公式为: $$V(s) = \max_{a} \left( \gamma V(s') \right)$$


3. Bellman公式

3.1 Bellman方程

Bellman方程是强化学习中计算最大未来回报的重要工具。在马尔可夫链中,我们通过 Bellman 方程计算一个状态的价值: $$V(s) = \max_a \left( V(s') \right)$$

此方程帮助我们通过选择每个可能操作后的最大值来制定最优策略。通过迭代计算,我们可以得到每个状态的期望回报。

3.2 Bellman公式的最大化目标

强化学习的核心目标是最大化奖励。 在 Bellman 公式中,我们通过选择每个状态的最优操作(最大化价值)来实现这个目标。 每次决策都依赖于当前状态的价值和期望的未来回报。

3.3 决策方式

3.3.1 确定性决策

确定性决策是指每个状态都对应一个明确的最优动作。 在这种情况下,决策过程是完全可预测的,没有任何随机性。

3.3.2 随机性决策

引入随机性可以帮助避免陷入局部最优解,类似于随机梯度下降(SGD)。 这种方式允许探索更多可能的解空间,使得强化学习模型能够在训练过程中获得更好的全局最优解。

3.4 神经网络在强化学习中的应用

当环境复杂或状态空间庞大时,直接计算所有状态的值可能非常昂贵。 此时,神经网络(策略网络)可以用来近似价值函数,从而减少计算开销。 我们将随机性引入神经网络:

最终得到这个图:

3.5 策略网络

策略网络通过为每个可能的操作分配不同的概率来生成策略。 我们可以通过随机设置初始位置,构建一个表格,将每个操作对应的分数与坐标作为训练数据,训练策略网络。

Gain x y Direction
3 0 2
2 0 1
1 1 1
0 1 0
-1 0 0

3.6 损失函数

通过比较神经网络输出的操作概率与实际期望结果之间的差异,我们可以计算梯度并优化网络权重。这有助于网络更准确地学习策略并做出最佳决策。