ALNS的MDP模型| 还没整理完12-08

有好几篇论文已经这样做了，先摆出一篇，然后再慢慢更新

第一篇

在这里插入图片描述

该篇论文提出了一种称为深增强ALNS（DR-ALNS）的方法，它利用DRL选择最有效的破坏和修复运营商，配置破坏严重性参数施加在破坏算子上，并设置ALNS框架内的验收标准值。DRL在每次搜索迭代时配置ALNS。与其他基于DRL的针对特定的优化问题的方法，这篇论文的目标是以一种概括的方式利用DRL。

为了实现这一点，该方法除了定义的破坏算子和修复算子，不依赖于任何特定于问题的信息。下图提供了用于DR-ALNS的伪代码和训练算法。
在这里插入图片描述

在该方法中，学习选择破坏和修复策略，配置破坏度，并在自适应大邻域搜索过程的每次迭代中设置验收标准参数。
将这个学习问题建模为一个连续的决策过程，在这个过程中，代理人通过采取行动和观察结果与环境进行交互。该过程使用称为马尔可夫决策过程（MDP）的数学框架来建模，其表示为元组<S，A，R，P>。

状态空间S为DRL代理提供了所需的信息，用于在搜索迭代期间做出明智的决策以选择最佳的可能动作。为了实现这一点，我们将S表示为包含7个问题不可知特征的一维向量，如表1所示。这些特征为代理提供了关于搜索过程的相关信息，

包括：
当前解决方案是否是迄今为止找到的最佳解决方案，
最佳解决方案最近是否已被改进，
当前解决方案最近是否已被接受
新的当前解决方案是否是新的最佳解决方案，
与最佳解决方案的成本差异百分比，
未改进最佳解决方案的迭代次数
剩余搜索预算百分比

在这里插入图片描述
动作空间A由破坏算子选择、修复算子选择、破坏度配置、验收标准参数设置四个动作空间组成。在每个时间步，DRL代理必须为每个空间选择一个操作。

？不是选择一组动作而是选择单个动作？

奖励函数：
在这里插入图片描述

状态转移函数P是由DRL主体通过与环境交互来学习的，因为主体没有关于它的先验知识。通过以这种方式制定MDP，我们为DRL主体提供了一个问题不可知的环境来学习如何选择动作。这意味着状态空间S和奖励函数R不依赖于任何特定于问题的信息。为了使用该方法，实践者只需要定义破坏“和修复”算子，然后使用它们在MDP中创建动作空间A。

？不是选择一组动作而是选择单个动作？
没读懂…

摘要中写
.ALNS在搜索过程中自适应地选择各种算法，利用它们的优势为优化问题找到好的解决方案。然而，ALNS的有效性取决于其选择和验收参数的适当配置。为了解决这一限制，我们提出了一种深度强化学习（DRL）方法，该方法在搜索过程中选择算法、调整参数并控制接受标准。
ALNS的壳，DRL的芯？

所提出的方法的目的基于搜索状态，学习如何配置ALNS的下一次迭代，以获得良好的解决方案的基础优化问题。

第二篇

在这里插入图片描述

这个是根据表现选择算法对儿，该框架使用深度强化学习（Deep RL）作为ALNS自适应层的替代方案，与仅考虑搜索引擎的过去性能以用于未来选择的自适应层不同，深度RL代理能够考虑来自搜索过程的附加信息，例如，迭代之间目标值的差异，以做出更好的决策。这是由于深度学习方法的表示能力和深度RL代理的决策能力，可以学习适应不同的问题和实例特征。

常见的算子也给改了
在这里插入图片描述
状态空间