文章目录
- Abstract
- 1 Introduction
- 2 Related work
- 3 Methods
- 3.1 预备知识
- 3.2 COMPASS
- 4 Experiments
- 4.1 TSP、CVRP和JSSP的标准基准测试
- 4.2 对泛化的鲁棒性:解决变异实例
- 4.3 搜索策略分析
- 5 Conclusion
Abstract
组合优化是许多现实应用的基础,但设计高效算法以解决这些复杂的、通常是NP难度的问题仍然是一个重要的研究挑战。强化学习(RL)提供了一个灵活的框架,可以在广泛的问题领域中设计启发式算法。然而,尽管取得了显著进展,强化学习尚未取代工业求解器作为首选解决方案。目前的方法强调预训练启发式构建解,但往往依赖于方差有限的搜索过程,例如从单一策略随机采样多个解或在个别问题实例上进行计算开销大的微调。基于一个直觉,即在推理时的高效搜索应该在预训练期间得到预期,我们提出了COMPASS,这是一种新颖的强化学习方法,它对多样化和专业化策略的分布进行了参数化,条件是一个连续的潜在空间。我们在三个经典问题——旅行商问题、容量车辆路由问题和作业车间调度问题上评估COMPASS,结果表明我们的搜索策略(i)在11个标准基准任务中有9个超越了最先进的方法,并且(ii)在18个程序性变换的实例分布上表现更好,具有更好的泛化能力。
1 Introduction
组合优化(CO)在交通运输