强化学习-google football 实验记录

    • google football 实验记录

      1. gru模型和dense模型对比实验

    • 实验场景:5v5(控制蓝方一名激活球员),跳4帧,即每个动作执行4次

    • 实验点:

      • 修复dense奖励后智能体训练效果能否符合预期

    • 实验目的:

      • 对比gru 长度为16 和 dense net作为aggrator的区别

    • 实验效果

      • reward

    • 敌方得分


      • 我方得分


    • 实验结论:

      • 相较于长度16的gru,dense net 作 聚合器有益于快速收敛。

      • gru聚合器学到了持球奖励,所以在双方奖励初步收敛后,gru能凭借持球奖励再一步将总奖励提到0以上(另一方面说明持球奖励设置太大了)

      • 两种方法都很难学会进球,进球的次数太少。

    • 2 课程学习

      2.1 禁区内

    • 实验场景:5v5(控制蓝方四名非守门员成员),跳4帧,在简单课程:禁区射门,开始

    • 实验目的:

      • 测试简单课程能否教会智能体智能体在禁区中射门

    • 实验效果

      • 奖励

      • 我方得分:

      • 敌方得分:

      • 实验结论

        • 课程学习中,将我方球员和足球放置于禁区内,有助于智能体学会在禁区内射门动作

        • 只进行这一种课程学习无法教会智能体从后场带球突破前场然后射门的策略,所以进球数始终无限接近于一(禁区内射门)而无法超过一

      2.2前场禁区外-对战简单规则

      • 实验场景:5v5(控制蓝方四名非守门员成员),跳4帧,在进阶课程:我方全部球员处于敌方禁区外的前场,敌方所有球员处于我方的后场,足球位于我方球员附近。敌方体力0.05,我方体力1.00

      • 实验配置:加载经过简单禁区内射门课程学习智能体的模型

      • 实验目的:试验进阶课程能否教会智能体从后场带球突破至前场禁区然后射门的策略

      • 实验效果:

        • 奖励:

        • 得分

        • 胜率

      • 实验结论

        • 进阶课程学习中,将我方球员和足球放置于前场,有助于智能体学会突破防守,进入禁区,然后射门,在敌方体力0.05,我方体力1.00的设置下每场净进球最高为8,胜率接近1

        • 进阶课程中,由于我方全部处于越位位置,传球会导致越位,使得训练后智能体在突破过程中倾向于单刀直入,很少有传球动作。并且进攻路线比较单一,总是从中路的一条直线突破。在敌方持球阶段,防御能力很弱。

    • 2.3前场禁区外-对战困难规则

    • 实验场景:5v5(控制蓝方四名非守门员成员),跳4帧,在进阶课程3.7中:敌我双方球员均处于各自半场,我方球员更接近球场中心,足球位于球场中心。敌方体力1.00,我方体力1.00;在进阶课程4.8中:敌我双方球员均处于对称位置,足球位于球场中心。敌方体力1.00,我方体力0.11

    • 实验配置:加载经过简单禁区内射门课程学习智能体的模型

    • 实验目的:试验进阶课程能否教会智能体从后场带球突破至前场禁区然后射门的策略

    • 实验效果:

      • 奖励:

      • 得分

      • 胜率

    • 实验结论

    • 通过进阶课程37-48,可以使智能体在较公平和较劣势情况下学习到战胜规则智能体的策略。

    • 由于课程的设置,智能体很少有传球动作。并且进攻路线比较单一,总是从中路的一条直线突破。在敌方持球阶段,防御能力很弱。

    • Naive Selfplay

      单一模型,纯selfplay

    • 实验场景:5v5(控制蓝方四名非守门员成员),跳4帧,左右双方均为强化学习智能体,采用同一模型、右边队伍以0.01的概率为 规则智能体,

    • 实验配置:加载经过进阶课程学习36智能体的模型

    • 实验目的:测试selfplay训练方法对模型攻防性能的影响

    • 实验效果:

      • 奖励:

      • 得分:

      • 胜率

    • 实验结论

    • 根据对战视频,selfplay可以增加智能体进攻策略的多样性,智能体不会拘泥一种策略,而是从多个方向向禁区突破,并且具有较低水平的防守能力,偶尔会截断传球,成功铲球等

    • selfplay 后的智能体对战规则的胜率降低,不能像在课程学习中那样,降低规则的进球数,说明其对自身模型产生较大的过拟合,参考文献 Bansal, Trapit et al. “Emergent Complexity via Multi-Agent Competition.” ArXiv abs/1710.03748 (2017): n. pag. 中也有指出naive selfplay的这种过拟合现象,文章通过抽取不同时期的model缓解这种现象。

    • 单一模型,selfplay和规则混合训练

    • 实验场景:5v5(控制蓝方四名非守门员成员),跳4帧,左右双方均为强化学习智能体,采用同一模型、右边队伍分别以0.5、 0.75 的概率为 规则智能体,

    • 实验配置:加载经过进阶课程学习36智能体的模型

    • 实验目的:测试selfplay和规则混合训练方法对模型攻防性能的影响,观察不同占比的规则对手,对智能体训练会产生什么影响

    • 实验结果:

      • 奖励:

      • 得分

      • 胜率

      • value loss

      • policy loss

    • 实验结论

    • 面对混合对手,智能体策略迅速保守化,具体表现为自己得分下降同时让对手的得分下降,视频中效果为将球运到自己半场后不再进攻,这一现象不会因为规则占比的多少而出现明显不同。考虑造成这种现象的原因可能有以下两种:1. 由于规则和selfplay的策略差别较大,造成智能体进攻策略时,价值函数和策略函数更新过程中的方差大,因而偏向保守策略。 2. 单模型的selfplay模型更新有问题,一些右队的数据应该被抛弃的数据、影响了模型更新

最终效果图,左队为强化学习智能体

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/654669.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Mysql-存储引擎-InnoDB

数据文件 下面这条SQL语句执行的时候指定了ENGINE InnoDB存储引擎为InnoDB: CREATE TABLE tb_album (id bigint(20) NOT NULL AUTO_INCREMENT COMMENT 编号,title varchar(100) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT 相册名称,image varc…

Flink Checkpoint 超时问题详解

第一种、计算量大,CPU密集性,导致TM内线程一直在processElement,而没有时间做CP【过滤掉部分数据;增大并行度】 代表性作业为算法指标-用户偏好的计算,需要对用户在商城的曝光、点击、订单、出价、上下滑等所有事件进…

给信息安全专业想做网络安全方面的人一些忠告

别一直打CTF 打CTF是为了打基础,大概知道一些基础就出来吧,千万不要一直打下去出不来了。简历上实习经历,项目经历以及漏洞成果才能构成一个不错的背景,只有ctf比赛会很尴尬。要知道有些人是py打比赛,面试官知道情况&…

小迪安全24WEB 攻防-通用漏洞SQL 注入MYSQL 跨库ACCESS 偏移

#知识点: 1、脚本代码与数据库前置知识 2、Access 数据库注入-简易&偏移 3、MYSQL 数据库注入-简易&权限跨库 #前置知识: -SQL 注入漏洞产生原理分析 -SQL 注入漏洞危害利用分析 -脚本代码与数据库操作流程 -数据库名&#xff0c…

探索设计模式的魅力:深入了解适配器模式-优雅地解决接口不匹配问题

设计模式专栏:http://t.csdnimg.cn/nolNS 目录 一、引言 1. 概述 2. 为什么需要适配器模式 3. 本文的目的和结构 二、简价 1. 适配器模式的定义和特点 定义 特点 2. 适配器模式的作用和适用场景 作用 适用场景 3. 适配器模式与其他设计模式的比较 三、适配…

K8S搭建(centos)二、服务器设置

天行健,君子以自强不息;地势坤,君子以厚德载物。 每个人都有惰性,但不断学习是好好生活的根本,共勉! 文章均为学习整理笔记,分享记录为主,如有错误请指正,共同学习进步。…

网络防御安全知识(第三版)

配置黑洞路由 --- 黑洞路由即空接口路由,在NAT地址池中的地址,建议配置达到这个地址指 向空接口的路由,不然,在特定环境下会出现环路。(主要针对地址池中的地址和出接口地址 不再同一个网段中的场景。) …

部署个人知识库管理软件 MrDoc详细教程

效果 一、拉取 MrDoc 代码 进入目录: cd /opt开源版: git clone https://gitee.com/zmister/MrDoc.git专业版: git clone https://{用户名}:{密码}git.mrdoc.pro/MrDoc/MrDocPro.git二、拉取 Docker 镜像 docker pull zmister/mrdoc:v7三…

【MyBatis】#{} 和 ${}

目录 1. #{} 使用示例: 2. ${} 使用示例: SQL注入 使用#{}的情况: 使用${}的情况: MyBatis是一种用于Java语言的持久层框架,它简化了数据库操作的过程。在MyBatis中,我们经常会看到两种不同的参数占…

保障气膜建筑稳定性的关键因素与方法

近年来,气膜建筑因其轻便、柔韧、环保等特点在建筑领域备受瞩目。然而,作为一种依赖气体支撑的结构,如何确保气膜建筑的稳定性成为一个重要的问题。本文将探讨保障气膜建筑稳定性的关键因素与方法,从气压差维持、材料选择、锚固系…

Markdown(2篇文章学会Markdown

目录 1.文章链接:2.markdown可以用来解决什么问题:小结: 1.文章链接: Markdown(2篇文章学会Markdown第一篇 Markdown(2篇文章学会Markdown第二篇 2.markdown可以用来解决什么问题: 格式化文…

小白水平理解面试经典题目LeetCode 455 Assign Cookies【Java实现】

455 分配cookies 小白渣翻译: 假设你是一位很棒的父母,想给你的孩子一些饼干。但是,你最多应该给每个孩子一块饼干。 每个孩子 i 都有一个贪婪因子 g[i] ,这是孩子满意的 cookie 的最小大小;每个 cookie j 都有一个…

商品介绍和规则参数图片映射和IP设置

虚拟路径映射配置: registry.addResourceHandler("/image/productIntroImgs/**").addResourceLocations("file:D:\\java1234-mall-v3\\productIntroImgs\\");registry.addResourceHandler("/image/productParaImgs/**").addResourceL…

Python爬虫请求库安装

请求库的安装 爬虫可以简单分为几步:抓取页面、分析页面和存储数据。 在抓取页面的过程中,我们需要模拟浏览器向服务器发出请求,所以需要用到一些 Python 库来实现 HTTP 请求操作。在本教程中,我们用到的第三方库有 requests、S…

单链表实现通讯录(增删查改)

前言 之前写了很多次通讯录,一次比一次复杂,从静态到动态,再到文件操作,再到顺序表,今天要好好复习一下单链表,于是乎干脆用单链表再写一遍。 首先我们之前已经用单链表写过他的增删查改了,于…

汽车网络安全管理体系框架与评价-汽车网络安全管理体系框架

R155《网络安全与网络安全管理系统》法规中明确指出 , 汽车制造商应完成 “汽车网络安全管理体系认证” (简称: CSMS认证)以及 “车辆型式审批" 且CSMS认证,是车辆型式审批的前提条件。 虽然我国相关政策尚…

汽车网络安全dos, someip

汽车Cyber Security入门之DoS 攻防 - 知乎 3、SOME/IP-TP 近年来火热地谈论下一代EE架构和SOA的时候,总离不开SOME/IP这个进程间通讯协议。在许多应用场景中,需要通过UDP传输大型的SOME/IP有效载荷。鉴于在以太网上传输数据包的大小限制,SO…

应用案例:Ruff工业设备数据采集,为生产制造企业数字化转型赋能

导读:某金属材料生产制造企业,引进了整套Ruff数据采集方案,将Ruff网关采集到的PLC数据接入到Ruff IoT管理云平台,帮助客户实现覆盖全厂区、车间所有设备的数字化、可视化管理,避免了意外停机风险,IT运维工作…

力扣3. 无重复字符的最长子串(滑动窗口)

Problem: 3. 无重复字符的最长子串 文章目录 题目描述思路及解法复杂度Code 题目描述 思路及解法 由于题目要求求出字符串中最长的连续无重复字符的最长子串,所以利用这个特性我们可以比较容易的想到利用双指针中的滑动窗口技巧来解决,但在实际的求解中…

C语言——指针进阶(四)

目录 一.前言 二.指针和数组笔试题解析 2.1 二维数组 2.2 指针笔试题 三.全部代码 四.结语 一.前言 本文我们将迎来指针的结尾,包含了二维数组与指针的试题解析。码字不易,希望大家多多支持我呀!(三连+关注&…