AI界的七大未解之谜:OpenAI丢出一组AI研究课题

来源:三体智讯


今天,OpenAI在官方博客上丢出了7个研究过程中发现的未解决问题。


OpenAI希望这些问题能够成为新手入坑AI的一种有趣而有意义的方式,也帮助从业者提升技能。


OpenAI版AI界七大未解之谜,现在正式揭晓——



丨1. Slitherin


难度指数:☆☆


实现并解决贪吃蛇的多玩家版克隆作为Gym环境。


环境:场地很大,里面有多条蛇,蛇通过吃随机出现的水果生长,一条蛇在与另一条蛇、自己或墙壁相撞时即死亡,当所有的蛇都死了,游戏结束。


智能体:使用自己选择的自我对弈的RL算法解决环境问题。你需要尝试各种方法克服自我对弈的不稳定性。


检查学习行为:智能体是否学会了适时捕捉食物并避开其他蛇类?是否学会了攻击、陷害、或者联合起来对付竞争对手?



丨2. 分布式强化学习中的参数平均


难度指数:☆☆☆


这指的是探究参数平均方案对RL算法中样本复杂度和通信量影响。一种简单的解决方法是平均每个更新的每个worker的梯度,但也可以通过独立地更新worker、减少平均参数节省通信带宽。


这样做还有一个好处:在任何给定的时间内,我们都有不同参数的智能体,可能出现更好的探测行为。另一种可能是使用EASGD这样的算法,它可以在每次更新时将参数部分结合在一起。


丨3. 通过生成模型完成的不同游戏中的迁移学习


难度指数:☆☆☆


这个流程如下:


训练11个Atari游戏的策略。从每个游戏的策略中,生成1万个轨迹,每个轨迹包含1000步行动。


将一个生成模型(如论文Attention Is All You Need提出的Transformer)与10个游戏产生的轨迹相匹配。


然后,在第11场比赛中微调上述模型。


你的目标是量化10场比赛预训练时的好处。这个模型需要什么程度的训练才能发挥作用?当第11个游戏的数据量减少10x时,效果的大小如何变化?如果缩小100x呢?



丨4. 线性注意Transformer


难度指数:☆☆☆


Transformer模型使用的是softmax中的软注意力(soft attention)。如果可以使用线性注意力(linear attention),我们就能将得到的模型用于强化学习。



具体来说,在复杂环境下使用Transformer部署RL不切实际,但运行一个具有快速权重(fast weight)的RNN可行。


你的目标是接受任何语言建模任务,训练Transformer,然后找到一种在不增加参数总数情况下,用具有不同超参数的线性注意Transformer获取每个字符/字的相同位元的方法。


先给你泼盆冷水:这可能是无法实现的。再给你一个潜在的有用提示,与使用softmax注意力相比,线性注意转化器很可能需要更高的维度key/value向量,这能在不显著增加参数数量的情况下完成。


丨5. 已学习数据的扩充


难度指数:☆☆☆


可以用学习过的数据VAE执行“已学习数据的扩充”。


我们首先可能需要在输入数据上训练一个VAE,然后将每个训练点编码到一个潜在的空间,之后在其中应用一个简单(如高斯)扰动,最后解码回到观察的空间。用这种方法是否能得到更好的泛化,目前还是一个谜题。

这种数据扩充的一个潜在优势是,它可能包含视角变换、场景光纤变化等很多非线性

转换。



丨6. 强化学习中的正则化


难度指数:☆☆☆☆


这指的是实验性研究和定性解释不同正则化方法对RL算法的影响。


在监督学习中,正则化对于优化模型和防止过拟合具有极其重要的意义,其中包含一些效果很赞的方法,如dropout、批标准化和L2正则化等。


然而,在策略梯度和Q-learning等强化学习算法上,研究人员还没有找到合适的正则化方法。顺便说一下,人们在RL中使用的模型要比在监督学习中使用的模型小得多,因为大模型表现更差。


丨7. Olympiad Inequality问题的自动解决方案


难度指数:☆☆☆☆☆


Olympiad Inequality问题很容易表达,但解决这个问题往往需要巧妙的手法。


建立一个关于Olympiad Inequality问题的数据集,编写一个可以解决大部分问题的程序。目前还不清楚机器学习在这里是否有用,但你可以用一个学习的策略减少分支因素。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/496666.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue 前端商城框架_前端工程师要掌握几个Vue框架

vue是一套用于构建用户界面的渐进式JavaScript框架,简单说Vue是类似于view的前端框架。vue开发核心是关注视图层,同时它更加容易与第三方库结合,再者我们在现有的项目中可以直接整合一起。目前vue技术社区在英文或中文都非常丰富,…

Python 模块 requests 模拟登录豆瓣 并 发表动态

如何抓取 WEB 页面:http://blog.csdn.net/chenguolinblog/article/details/45024643github 上一个关于模拟登录的项目:https://github.com/xchaoinfo/fuck-login Python爬虫之模拟登录总结:http://blog.csdn.net/churximi/article/details/50…

华为云BU总裁:如何把AI从噱头变为生产力?

来源:亿欧网 作者:张之颖“别跟着喊口号,少看朋友圈。…人工智能在中国被过分炒作了,现在国内人工智能已被娱乐化。不是做两个刷脸应用、搞一个APP就叫做人工智能。”华为云BU总裁郑叶来接受环球网记者的采访时表示,华…

Python 爬虫框架 - PySpider

Python爬虫进阶四之PySpider的用法:http://cuiqingcai.com/2652.html 网络爬虫剖析,以Pyspider为例:http://python.jobbole.com/81109 Python爬虫利器六之PyQuery的用法:https://cuiqingcai.com/2636.html 爬虫框架pyspider个人总…

AI技术加持,让协作机器人更安全

来源:机器人创新生态丨公众号来自众家新创公司与实验室的碰撞侦测与追踪技术,将使得在人类与其他移动物体周边的协作机器人更安全。一个美国圣地亚哥大学(University of San Diego)的团队便开发了一种更快速的算法,能协…

捕获异常_Recover捕获异常

“ 本文来源于《The Go Programming Language》”5.10. Recover捕获异常通常来说,不应该对panic异常做任何处理,但有时,也许我们可以从异常中恢复,至少我们可以在程序崩溃前,做一些操作。举个例子,当web服务…

仿msn弹出窗口

msnMessage.js文件代码: Code1 /** 2 ** 3 ** 类名:msnMessage 4 ** 功能:提供类似MSN消息框 5 ** 示例: 6 --------------------------------------------------------------------------------…

CPU诞生记|CPU制造全过程详解

来源:电子产品世界CPU(Centralprocessingunit)是现代计算机的核心部件,又称为“微处理器”。对于PC而言,CPU的规格与频率常常被用来作为衡量一台电脑性能强弱重要指标。Intelx86架构已经经历了二十多个年头,而x86架构的CPU对我们大…

二维数组 类型_Java第六章 | 二维数组的创建及使用、数组排序算法

二维数组的创建及使用1、二维数组的创建2、二维数组初始化3、使用二维数组二维数组的创建声明二维数组的方法有两种,语法如下所示:数组元素类型 数组名字[ ][ ];数组元素类型[ ][ ] 数组名字;数组元素类型:决定了数组的数据类型,它…

Semaphore及其用法

1、Semaphore 是什么 Semaphore 通常我们叫它信号量, 可以用来控制同时访问特定资源的线程数量,通过协调各个线程,以保证合理的使用资源。 比如:停车场入口立着的那个显示屏,每有一辆车进入停车场显示屏就会显示剩余…

sklearn 逻辑回归Demo

逻辑回归案例 假设表示 基于上述情况,要使分类器的输出在[0,1]之间,可以采用假设表示的方法。 设 h θ ( x ) g ( θ T x ) h_θ (x)g(θ^T x) hθ​(x)g(θTx), 其中 g ( z ) 1 ( 1 e − z ) g(z)\frac{1}{(1e^{−z} )} g(z)(1e−z)1​…

URL原理、URL编码、URL特殊字符、输入URL到页面显示

​From:http://blog.csdn.net/zmx729618/article/details/51381655 From:http://www.cnblogs.com/coco1s/p/5038412.html HTML URL 编码参考手册:https://www.w3cschool.cn/htmltags/html-urlencode.html http://www.w3school.com.cn/t…

记忆模糊、记忆泛化的关键分子开关被发现

来源:brainnews2018年3月12日,Nature Medicine杂志在线刊登了麻省总医院Amar Sahay研究组的最新重要工作,他们发现了一种细胞骨架蛋白Actin-binding LIM protein 3 (ABLIM3),降低该蛋白的表达水平可以增强海马齿状回细胞&#xff…

240多个jQuery插件 (转)

概述 jQuery 是继 prototype 之后又一个优秀的 Javascript 框架。其宗旨是—写更少的代码,做更多的事情。它是轻量级的 js 库(压缩后只有21k) ,这是其它的 js 库所不及的,它兼容 CSS3,还兼容各种浏览器(IE 6.0, FF 1.5, Safari 2.…

Exchanger及其用法

01 Exchanger 作用 使两个线程之间进行数据传递。(对是两个之间而不是三个或者更多个线程之间) 02 常用方法 exchange() 阻塞当前线程并等待其他线程来取得数据,若没有其他线程来取数据则一直等待。 exchange&…

2 如何设置窗口title_如何设置华为4G路由2的WiFi黑白名单【设置方法】

不想让自家的Wi-Fi被蹭网,除了将Wi-Fi隐藏起来,您还可以设置Wi-Fi黑白名单。如果您发现有人蹭网了,可以将蹭网设备直接加入黑名单,这样就可以禁止这个设备再连接到您的Wi-Fi。如果您将家人、朋友的设备加入了白名单,那…

谷歌大脑AutoML最新进展:用进化算法发现神经网络架构

来源:AI中国大脑的进化进程持续已久,从5亿年前的蠕虫大脑到现如今各种现代结构。例如,人类的大脑可以完成各种各样的活动,其中许多活动都是毫不费力的。例如,分辨一个视觉场景中是否包含动物或建筑物对我们来说是微不足…

linux 的 ip 命令 和 ifconfig 命令

From(试试Linux下的ip命令,ifconfig已经过时了): https://linux.cn/article-3144-1.html From(linux网络配置命令之ifconfig、ip和route): http://chrinux.blog.51cto.com/6466723/1188108 From…

对于Office Live平台的思考

刚接触计算机编程的时候,脑子里想法比肚子里的墨水多得多,那时候想通过网络成立一个游戏开发团队,将不少人都很喜欢的一款FC游戏“重装机兵”(Metal Max)移植到电脑上来。当时的想法很激进也很宏大,我想的不…

中国学者用人工光感受器助失明小鼠复明

来源:《自然—通讯》中国研究人员在英国《自然通讯》杂志上发表报告说,他们通过在失明小鼠眼底植入一种新研发的人工光感受器,让它们的视觉得以恢复。如果这种技术发展成熟,未来或许能帮助因黄斑变性等疾病而视力下降或失明的患者…