目录
一、强化学习的概念
二、强化学习的特点
三、强化学习的训练过程
一、强化学习的概念
强化学习是一种机器学习方法,旨在教会算法如何通过与环境的交互来进行学习和决策。与传统的监督学习和无监督学习不同,强化学习侧重于学习与奖励和惩罚(称为回报)相关的行为,以最大化在某个任务中的累积回报。强化学习的算法通常涉及一个代理(agent),该代理与环境进行交互,并采取行动来实现旨在最大化累积回报的目标。代理可以在某些超时之前执行许多行动,并在每个时间步骤中观察到它所处的状态,并基于该状态选择下一步行动。环境通常是复杂的,动态的和不确定的,代理必须学习如何采取最佳行动以应对环境的变化。强化学习的一个重要组成部分是奖励信号,它通常指示代理采取特定行动后应获得的目标。代理以其行动和环境的反馈为基础,通过学习如何最大化这些奖励信号来改善其决策。强化学习的应用领域非常广泛,包括游戏,机器人控制,自然语言处理,金融,电力系统等等。强化学习的发展也受到了深度学习的推动,这将为代理提供更丰富的表示,并帮助在更复杂的环境中进行决策。
二、强化学习的特点
强化学习的灵感来源于心理学里的行为主义理论:
-
一切学习都是通过条件作用,在刺激和反应之间建立直接联结的过程。
-
强化在刺激一反应之间的建立过程中起着重要的作用。在刺激一反应联结中,个体学到的是习惯,而习惯是反复练习与强化的结果。
-
习惯一旦形成,只要原来的或类似的刺激情境出现,习得的习惯性反应就会自动出现。
那基于上述理论,强化学习还借鉴了心理学中有关奖励和惩罚对行为影响的观察结果以及神经科学中对大脑决策过程的研究成果。这些理论和实证研究为强化学习提供了更深入的认识,并丰富了其相关算法和模型设计方面的思路。
特点:
-
试错学习: 强化学习需要训练对象不停地和环境进行交互,通过试错的方式去总结出每一步的最佳行为决策,整个过程没有任何的指导,只有冰冷的反馈。所有的学习基于环境反馈,训练对象去调整自己的行为决策。
-
延迟反馈: 强化学习训练过程中,训练对象的“试错”行为获得环境的反馈,有时候可能需要等到整个训练结束以后才会得到一个反馈,比如Game Over或者是Win。当然这种情况,我们在训练时候一般都是进行拆解的,尽量将反馈分解到每一步。
-
时间是强化学习的一个重要因素:强化学习的一系列环境状态的变化和环境反馈等都是和时间强挂钩,整个强化学习的训练过程是一个随着时间变化,而状态&反馈也在不停变化的,所以时间是强化学习的一个重要因素。
-
当前的行为影响后续接收到的数据:为什么单独把该特点提出来,也是为了和监督学习&半监督学习进行区分。在监督学习&半监督学习中,每条训练数据都是独立的,相互之间没有任何关联。但是强化学习中并不是这样,当前状态以及采取的行动,将会影响下一步接收到的状态。数据与数据之间存在一定的关联性。
三、强化学习的训练过程
马尔可夫决策过程(Markov Decision Process,简称MDP)是一种经典的强化学习模型,用于描述采用最佳动作来解决决策问题的数学框架。它是基于马尔可夫链(Markov Chain)和决策过程理论(Decision Theory)的结合,适用于解决带有不确定性和随机性的决策问题。
MDP模型由5个要素构成,包括状态(State)、动作(Action)、奖励(Reward)、状态转移概率(Transition Probability)和折扣因子(Discount Factor)。其中,状态描述了环境或问题的当前状态;动作是智能体(Agent)在某个状态下采取的行动;奖励是智能体根据采取某个动作和环境当前状态而获得的反馈信号;状态转移概率描述了从一个状态转移到另一个状态的概率;折扣因子是衡量智能体对于未来奖励的重视程度。
在MDP中,智能体与环境之间通过交互进行决策,智能体根据当前状态选择一个行动,并根据状态转移概率从当前状态转移到下一个状态,同时得到相应的奖励。MDP模型通过求解价值函数(Value Function)、策略函数(Policy Function)或Q函数(Q Function)来得到最佳决策策略。
MDP模型可以用以下几个方程来描述:
- 状态转移概率方程:
这个方程描述了智能体在执行某个动作后,环境从当前状态转移到下一个状态的概率分布。具体地,它给出了在当前状态s下执行动作a后,环境转移到下一个状态s'的概率P(s'|s,a)。
奖励函数方程:
这个方程定义了智能体在执行某个动作后获得的即时奖励。具体地,它给出了在当前状态s下执行动作a后获得的奖励R(s,a)。
- 策略方程:
策略是智能体根据当前状态选择动作的规则。这个方程描述了智能体在给定状态下选择各个动作的概率分布。具体地,它给出了在状态s下选择动作a的概率π(a|s)。
- 值函数方程:
值函数用于评估智能体在给定状态下执行策略的好坏。它可以是状态值函数V(s),表示从状态s开始按照策略π执行动作所能获得的期望总奖励,也可以是动作值函数Q(s,a),表示在状态s下执行动作a并按照策略π执行后续动作所能获得的期望总奖励。
- 贝尔曼方程:
贝尔曼方程是MDP模型的核心方程,它将值函数与状态转移概率、奖励函数和策略联系起来。具体地,它给出了状态值函数V(s)或动作值函数Q(s,a)的递归计算公式,可以用于迭代计算值函数。
下图是一个MDP模型的思维导图图:
通俗理解:今天的结果与昨天有关与前天无关。