人工智能咨询培训老师叶梓 转载标明出处
想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。
1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。
CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987
现有的基准测试环境大多并非专门为评估特定的强化学习方法而设计,难以满足研究人员对特定问题的深入研究需求。例如,一些环境虽然能够测试强化学习中的特定问题(如探索、迁移学习、无监督环境设计等),但很难扩展到更复杂、更丰富的环境中。为了解决这一问题,Facebook AI Research、伦敦大学学院和牛津大学的研究人员联合提出了一种名为MiniHack的框架,旨在为强化学习研究提供一个易于扩展且功能强大的实验平台。
MiniHack框架的核心在于其利用NetHack游戏的丰富资源和复杂环境动态,通过描述文件(des-file)格式和领域特定语言(DSL)快速设计多样化的强化学习测试环境。这种设计方式使得研究人员能够通过人类可读的描述语言或简单的Python接口来创建环境,极大地提高了环境设计的灵活性和效率。图1展示了使用des文件格式程序生成的环境示例,包括MAZEWALK命令生成的迷宫、RANDOM_CORRIDOR命令生成的走廊以及通过代码片段生成的环境实例。
描述文件(des-file)格式是NetHack中用于定义游戏关卡的领域特定语言,支持变量、循环、条件语句和概率分布,能够生成多样化的网格布局和环境特征。例如,图2展示了一个des-file代码片段,通过简单的命令生成了一个10x10网格的多样化环境实例。其中,$river
变量用于随机选择地形特征(如水、岩浆或冰),LOOP
块用于生成随机怪物和地形,REPLACE_TERRAIN
命令则将部分地板替换为树木。这种描述方式使得环境设计既灵活又高效。
图3展示了一个固定布局的NetHack关卡描述文件,其中.
, +
, 和S
字符分别表示地板、关闭的门和秘密门,而|
和-
表示墙壁。通过循环块和条件语句,可以轻松添加随机元素,如随机放置的物品、陷阱和怪物。
MiniHack支持多种观察形式,包括符号、像素级和文本描述。例如,图4展示了不同形式的中心化观察,包括符号、像素和文本描述。这种多模态观察方式为强化学习算法提供了丰富的输入信息,使得算法能够更好地理解和适应环境。
此外,MiniHack还提供了灵活的动作空间。NetHack的动作空间较大且结构复杂,研究人员可以根据任务需求限制或扩展动作空间,以促进特定技能的发现。例如,在导航任务中,动作空间主要集中在移动命令上,而在技能获取任务中,则需要更复杂的动作,如管理物品、施法等。
MiniHack提供了一个方便的奖励管理器,允许研究人员轻松定义多个事件的奖励,并控制哪些事件组合足以终止一集(episode)。例如,在图5的代码片段中,通过RewardManager
定义了任务目标,如吃苹果或使用特定物品。这种灵活的奖励机制使得环境设计更加多样化,能够满足不同研究需求。
为了验证MiniHack框架的有效性和挑战性,研究人员在一系列导航任务、技能获取任务以及移植自MiniGrid和Boxoban的任务上进行了实验。实验结果表明,尽管基线方法能够在简单任务上取得较好的表现,但随着环境复杂性的增加,基线方法的性能逐渐下降,甚至无法取得任何奖励。
例如,在图7中展示了MiniHack导航任务的实验结果。简单任务(如Room-5x5)能够被基线方法快速解决,但随着任务复杂性的增加(如Room-Ultimate-15x15和River-MonsterLava),基线方法逐渐失效。这表明MiniHack能够有效地评估强化学习算法在复杂环境中的表现,并为未来的研究提供了具有挑战性的测试平台。
在技能获取任务中,图8展示了不同任务的实验结果。简单任务(如Eat和Pray)能够被基线方法解决,但更复杂的任务(如WoD-Medium和LavaCross)则需要更深入的探索和更复杂的策略。这进一步证明了MiniHack在测试强化学习算法的泛化能力和探索能力方面的强大功能。
MiniHack还支持无监督环境设计(UED)研究,通过动态调整任务的MDP配置来训练适应性强的代理。例如,图10展示了PAIRED算法的实验结果,通过训练环境对手来生成具有挑战性的任务,从而提高代理的泛化能力。结果显示,通过UED训练的代理在未见过的复杂环境中表现出了更好的零样本迁移能力。
MiniHack框架的代码和相关资源已经开源,感兴趣的读者可以通过以下链接访问项目页面:
https://github.com/facebookresearch/minihack
论文链接:
https://arxiv.org/pdf/2109.13202