AI界的七大未解之谜:OpenAI丢出一组AI研究课题

来源:三体智讯


今天,OpenAI在官方博客上丢出了7个研究过程中发现的未解决问题。


OpenAI希望这些问题能够成为新手入坑AI的一种有趣而有意义的方式,也帮助从业者提升技能。


OpenAI版AI界七大未解之谜,现在正式揭晓——



丨1. Slitherin


难度指数:☆☆


实现并解决贪吃蛇的多玩家版克隆作为Gym环境。


环境:场地很大,里面有多条蛇,蛇通过吃随机出现的水果生长,一条蛇在与另一条蛇、自己或墙壁相撞时即死亡,当所有的蛇都死了,游戏结束。


智能体:使用自己选择的自我对弈的RL算法解决环境问题。你需要尝试各种方法克服自我对弈的不稳定性。


检查学习行为:智能体是否学会了适时捕捉食物并避开其他蛇类?是否学会了攻击、陷害、或者联合起来对付竞争对手?



丨2. 分布式强化学习中的参数平均


难度指数:☆☆☆


这指的是探究参数平均方案对RL算法中样本复杂度和通信量影响。一种简单的解决方法是平均每个更新的每个worker的梯度,但也可以通过独立地更新worker、减少平均参数节省通信带宽。


这样做还有一个好处:在任何给定的时间内,我们都有不同参数的智能体,可能出现更好的探测行为。另一种可能是使用EASGD这样的算法,它可以在每次更新时将参数部分结合在一起。


丨3. 通过生成模型完成的不同游戏中的迁移学习


难度指数:☆☆☆


这个流程如下:


训练11个Atari游戏的策略。从每个游戏的策略中,生成1万个轨迹,每个轨迹包含1000步行动。


将一个生成模型(如论文Attention Is All You Need提出的Transformer)与10个游戏产生的轨迹相匹配。


然后,在第11场比赛中微调上述模型。


你的目标是量化10场比赛预训练时的好处。这个模型需要什么程度的训练才能发挥作用?当第11个游戏的数据量减少10x时,效果的大小如何变化?如果缩小100x呢?



丨4. 线性注意Transformer


难度指数:☆☆☆


Transformer模型使用的是softmax中的软注意力(soft attention)。如果可以使用线性注意力(linear attention),我们就能将得到的模型用于强化学习。



具体来说,在复杂环境下使用Transformer部署RL不切实际,但运行一个具有快速权重(fast weight)的RNN可行。


你的目标是接受任何语言建模任务,训练Transformer,然后找到一种在不增加参数总数情况下,用具有不同超参数的线性注意Transformer获取每个字符/字的相同位元的方法。


先给你泼盆冷水:这可能是无法实现的。再给你一个潜在的有用提示,与使用softmax注意力相比,线性注意转化器很可能需要更高的维度key/value向量,这能在不显著增加参数数量的情况下完成。


丨5. 已学习数据的扩充


难度指数:☆☆☆


可以用学习过的数据VAE执行“已学习数据的扩充”。


我们首先可能需要在输入数据上训练一个VAE,然后将每个训练点编码到一个潜在的空间,之后在其中应用一个简单(如高斯)扰动,最后解码回到观察的空间。用这种方法是否能得到更好的泛化,目前还是一个谜题。

这种数据扩充的一个潜在优势是,它可能包含视角变换、场景光纤变化等很多非线性

转换。



丨6. 强化学习中的正则化


难度指数:☆☆☆☆


这指的是实验性研究和定性解释不同正则化方法对RL算法的影响。


在监督学习中,正则化对于优化模型和防止过拟合具有极其重要的意义,其中包含一些效果很赞的方法,如dropout、批标准化和L2正则化等。


然而,在策略梯度和Q-learning等强化学习算法上,研究人员还没有找到合适的正则化方法。顺便说一下,人们在RL中使用的模型要比在监督学习中使用的模型小得多,因为大模型表现更差。


丨7. Olympiad Inequality问题的自动解决方案


难度指数:☆☆☆☆☆


Olympiad Inequality问题很容易表达,但解决这个问题往往需要巧妙的手法。


建立一个关于Olympiad Inequality问题的数据集,编写一个可以解决大部分问题的程序。目前还不清楚机器学习在这里是否有用,但你可以用一个学习的策略减少分支因素。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/496666.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue 前端商城框架_前端工程师要掌握几个Vue框架

vue是一套用于构建用户界面的渐进式JavaScript框架,简单说Vue是类似于view的前端框架。vue开发核心是关注视图层,同时它更加容易与第三方库结合,再者我们在现有的项目中可以直接整合一起。目前vue技术社区在英文或中文都非常丰富,…

sha256算法

文章目录前言一、sha256是什么?二、go语言实现前言 提示:以下是本篇文章正文内容,下面案例可供参考 一、sha256是什么? SHA256是SHA-2下细分出的一种算法 SHA-2,名称来自于安全散列算法2(英语&#xff…

Python 模块 requests 模拟登录豆瓣 并 发表动态

如何抓取 WEB 页面:http://blog.csdn.net/chenguolinblog/article/details/45024643github 上一个关于模拟登录的项目:https://github.com/xchaoinfo/fuck-login Python爬虫之模拟登录总结:http://blog.csdn.net/churximi/article/details/50…

华为云BU总裁:如何把AI从噱头变为生产力?

来源:亿欧网 作者:张之颖“别跟着喊口号,少看朋友圈。…人工智能在中国被过分炒作了,现在国内人工智能已被娱乐化。不是做两个刷脸应用、搞一个APP就叫做人工智能。”华为云BU总裁郑叶来接受环球网记者的采访时表示,华…

DSA签名算法

文章目录前言一、DSA是什么?二、go语言实现前言 提示:以下是本篇文章正文内容,下面案例可供参考 一、DSA是什么? DSA(Digital Signature Algorithm,数字签名算法,用作数字签名标准的一部分&a…

Java并发编程实战~Actor 模型

Hello Actor 模型 Actor 模型本质上是一种计算模型,基本的计算单元称为 Actor,换言之,在 Actor 模型中,所有的计算都是在 Actor 中执行的。在面向对象编程里面,一切都是对象;在 Actor 模型里,一…

master分支删除文件_Git分支基础简介;创建分支;合并分支;删除分支;

目录为了演示:我们创建了一个本地仓库testBranch,一个远程仓库testBranchRe:1.当我们创建一个本地仓库的时候,这个本地仓库中就会有一个主分支,即master分支;2.每次提交,master就会向后移动一个…

跳动的菜单

<html> <head> <meta http-equiv"Content-Type" content"text/html; charsetgb2312" /> <title>模仿as效果的导航菜单</title> <style type"text/css"> <!-- a:link,a:visited { text-decoration: no…

Python 爬虫框架 - PySpider

Python爬虫进阶四之PySpider的用法&#xff1a;http://cuiqingcai.com/2652.html 网络爬虫剖析&#xff0c;以Pyspider为例&#xff1a;http://python.jobbole.com/81109 Python爬虫利器六之PyQuery的用法&#xff1a;https://cuiqingcai.com/2636.html 爬虫框架pyspider个人总…

AI技术加持,让协作机器人更安全

来源&#xff1a;机器人创新生态丨公众号来自众家新创公司与实验室的碰撞侦测与追踪技术&#xff0c;将使得在人类与其他移动物体周边的协作机器人更安全。一个美国圣地亚哥大学&#xff08;University of San Diego&#xff09;的团队便开发了一种更快速的算法&#xff0c;能协…

RSA签名算法

文章目录前言一、RSA是什么&#xff1f;前言 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 一、RSA是什么&#xff1f; RSA数字签名算法的过程为&#xff1a;A对明文m用解密变换作: (公钥用来加密&#xff0c;私钥用来解密&#xff0c;数字签名是用…

捕获异常_Recover捕获异常

“ 本文来源于《The Go Programming Language》”5.10. Recover捕获异常通常来说&#xff0c;不应该对panic异常做任何处理&#xff0c;但有时&#xff0c;也许我们可以从异常中恢复&#xff0c;至少我们可以在程序崩溃前&#xff0c;做一些操作。举个例子&#xff0c;当web服务…

仿msn弹出窗口

msnMessage.js文件代码&#xff1a; Code1 /** 2 ** 3 ** 类名&#xff1a;msnMessage 4 ** 功能&#xff1a;提供类似MSN消息框 5 ** 示例&#xff1a; 6 --------------------------------------------------------------------------------…

ECC签名算法

文章目录前言一、ECC是什么&#xff1f;二、go语言实现前言 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 一、ECC是什么&#xff1f; ECC全称为“Ellipse Curve Ctyptography”&#xff0c;是一种基于椭圆曲线数学的公开密钥加密算法。椭圆曲线在密…

CPU诞生记|CPU制造全过程详解

来源&#xff1a;电子产品世界CPU(Centralprocessingunit)是现代计算机的核心部件&#xff0c;又称为“微处理器”。对于PC而言&#xff0c;CPU的规格与频率常常被用来作为衡量一台电脑性能强弱重要指标。Intelx86架构已经经历了二十多个年头&#xff0c;而x86架构的CPU对我们大…

二维数组 类型_Java第六章 | 二维数组的创建及使用、数组排序算法

二维数组的创建及使用1、二维数组的创建2、二维数组初始化3、使用二维数组二维数组的创建声明二维数组的方法有两种&#xff0c;语法如下所示&#xff1a;数组元素类型 数组名字[ ][ ];数组元素类型[ ][ ] 数组名字;数组元素类型&#xff1a;决定了数组的数据类型&#xff0c;它…

Semaphore及其用法

1、Semaphore 是什么 Semaphore 通常我们叫它信号量&#xff0c; 可以用来控制同时访问特定资源的线程数量&#xff0c;通过协调各个线程&#xff0c;以保证合理的使用资源。 比如&#xff1a;停车场入口立着的那个显示屏&#xff0c;每有一辆车进入停车场显示屏就会显示剩余…

使用代理时服务变量的变化

一、没有使用代理服务器的情况&#xff1a; REMOTE_ADDR 您的 IP HTTP_VIA 没数值或不显示 HTTP_X_FORWARDED_FOR 没数值或不显示 二、使用透明代理服务器的情况&#xff1a;Transparent Proxies REMOTE_ADDR 最后一个代理服务器 IP HTTP_VIA 代理服务器 …

SM2算法

文章目录前言一、SM2是什么&#xff1f;二、go语言实现前言 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 一、SM2是什么&#xff1f; SM2是国家密码管理局于2010年12月17日发布的椭圆曲线公钥密码算法。 SM2算法和RSA算法都是公钥密码算法&#xf…

rocketmq 消息 自定义_跟我学RocketMQ[1-4]之消息消费及支持spring

博客地址:朝闻道​www.wuwenliang.net本文我将继续讲解如何使用DefaultMQPushConsumer对RocketMQ中的消息进行消费&#xff0c;同时在文章的第二部分将继续带领读者朋友对DefaultMQPushConsumer进行薄封装&#xff0c;让我们在Spring中更容易对消息进行消费。DefaultMQPushCons…