OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力...


来源:AI科技评论

作者:OpenAI

编译:贝爽、陈大鑫

前几个月GPT-3刚刚问世的时候,能够根据一段话就写出一个小说、一段哲学语录,就足以令AI圈为之感到兴奋。

然而2020年刚刚开始没多久,OpenAI又实现一重大突破!

OpenAI最新发布了一个名叫 DALL·E 的神经网络模型,它可以魔法一般按照自然语言文字描述直接生成对应图片!

效果如下所示:

文本提示:鳄梨形状的扶手椅。

AI生成的图像:

这生产效果真是堪称神奇!自然语言与视觉的壁垒正在被逐渐打通。


OpenAI 联合创始人、首席科学家 Ilya Sutskever 在推特上发文表示道:人工智能的长期目标是构建多模态神经网络,即AI能够学习不同模态之间的概念(文本和视觉领域为主),从而更好地理解世界。而 DALL·E 和 CLIP 使我们更接近“多模态 AI 系统”这一目标。

吴恩达对OpenAI也表示祝贺,并挑选了自己最喜欢的蓝色衬衫 + 黑色长裤的AI 生成图。

Keras创始人François Chollet感叹这看起来非常酷,尤其是“图像生成”的部分。

“从原理上来看,它应该就是GPT-3在文本合成图像方向上的扩展版本。”

DALL·E 实际上是GPT-3的120亿参数版本,经过训练可以从文本描述中生成图像。OpenAI发现它具有多种功能,包括创建拟人化的动物和物体、以合理的方式组合无关概念、渲染文本并将转换应用于现有的图像。

DALL·E这个名字是不是听起来很有熟悉感,其实OpenAI使用了画家萨尔瓦多·达利(Salvador Dalí)和皮克斯(Pixar)的WALL·E的复合来命名模型。

图注:西班牙超现实主义画家萨尔瓦多·达利

图注:电影机器人总动员中的WALL·E

以下是DALL·E的几个演示案例。

文本提示:穿着芭蕾舞短裙的萝卜宝宝在遛狗。

AI生成的图像:

文本提示:写有“openai”字样的店铺。

AI生成的图像:

文本+图像提示:参照上面的猫在下面生成草图

AI生成的图像:

GPT-3已经向我们展示,可以用语言来指示大型神经网络执行各种文本生成任务。Image GPT则表明,同样类型的神经网络也可以用来生成高保真的图像。OpenAI进一步扩展了这些发现,以表明通过语言操纵视觉概念是触手可及的。

与GPT-3一样,DALL·E是一种Transformer语言模型。OpenAI认为,涉及生成模型的工作可能会产生重大而广泛的社会影响。因此未来,OpenAI会计划分析像DALL·E这样的模型如何与社会问题联系起来,例如对某些工作流程和专业的经济影响,模型输出中可能存在的偏见以及该技术所隐含的长期道德挑战。

1

DALL·E的能力 

DALL·E能够为多语言成分结构的各种句子创造似是而非的图像。研究人员通过一些交互视觉效果举例说明了这一点。在下面的案例中,每个视觉效果的文本提示都是通过CLIP重新排序后,从512个文本提示中的前32个获得的,不采取任何手动选取(cherry-picking)。

控制属性

研究人员测试了DALL·E修改目标物体的能力,包括修改相应的属性以及出现的次数。

文本提示:五边形的绿色钟

AI生成的图像:

绘制多边形物体

同时控制多个目标物体、它们的属性和它们的空间关系是一个新的挑战。

例如,“一只戴着红帽子、黄手套、蓝衬衫和绿裤子的刺猬”。要正确地解释这句话,DALL·E 不仅要正确地将每件衣服与动物组合在一起,还要将(帽子、红色)、(手套、黄色)、(衬衫、蓝色)和(裤子,绿色)形成各种联想,而且不能混淆它们。

文本提示:一堆三维立方体:红色的立方体在绿色立方体的顶部。绿色立方体在中间。蓝色立方体在底部。

AI生成的图像:

虽然DALL·E确实为少量目标的属性和位置提供了某种程度的可控性,但成功率取决于标题文本的语言措辞。随着目标的增多,DALL·E容易混淆目标与颜色之间的关联,成功率会急剧降低。研究人员注意到,在这些场景中,DALL·E对于标题文本的重新表述是脆弱的:可替代的、语义上等价的标题文本通常不会产生正确的解释。

可视化透视与三维

研究人员发现DALL·E还能够控制场景的视点和渲染场景的3D样式。

文本提示:坐在田野上的体素化模型水豚。

AI生成的图像:


为了进一步验证DALL·E的这个能力,研究人员测试了DALL·E在同等视角下重复绘制知名人物头部的能力,并发现DALL·E可以成功恢复旋转头部的平滑动画。

文本提示:荷马半身像

AI生成的图像:


DALL·E能够将某些类型的光学畸变(Optical Distortions)应用到具体场景中,正如我们在“鱼眼透镜视图(Fisheye Lens View)”和“球形全景图(Spherical Panorama.)”等场景中看到的那样。它促使研究人员探索其产生光学反射的能力。

文本提示:一个白色的立方体看着自己在镜子里的倒影;一个白色的立方体看着镜子里的自己。

AI生成的图像:

可视化内部和外部结构

“特写镜头(Extreme Close-up View)”和“x射线(X-Ray)”风格的案例使研究人员进一步探索了DALL·E运用横截面视角绘制内部结构和用宏观图像绘制外部结构的能力。

文本提示:核桃的横截面图。

AI生成的图像:

推断上下文细节

将文本翻译成图像的任务是不明确的:一个标题文本通常可以对应无限多种图像,换句话说,图像不是唯一确定的。例如,假如标题文本是“日出时,坐在田野上的水豚的绘画像。根据水豚的方位,可能需要画一个阴影,但这个细节没有被明确提及。

研究人员探讨了DALL·E在以下三种情况下解决无规范标准问题的能力:改变风格、设置和时间;在各种不同的情况下绘制同一目标图像;在生成目标图像上书写指定文本。

文本提示:带有蓝色草莓图案的彩色玻璃窗。

AI生成的图像:

利用不同程度的可靠性,DALL·E为通过自然语言实现3D渲染引擎功能提供了一种途径。它可以独立地控制少量目标的属性,并在有限的范围内控制目标的数量以及它们之间的排列方式。它还可以控制渲染场景的位置和角度,并且根据角度和照明条件生成精确且规范的已知目标。 

与3D渲染引擎不同,3D渲染引擎的输入必须明确且完整,当标题文本暗示图像必须包含未明确的特定细节时,DALL·E通常能够“填补空白”。

应用案例

接下来,研究人员探讨了上述功能在时尚设计和室内设计中的应用。

文本提示:一位穿着橘色和黑色相间衬衫的男性人体模特。

AI生成的图像:

文本提示:客厅中有两个白色的扶手椅和一幅斗兽场的画,这幅画挂在现代样式壁炉的上方。

AI生成的图像:

组合不相关的概念

语言的构成本质使人们能够将概念描述集成在一起,用以描述真实和虚构的事物。OpenAI发现,DALL·E还具有将完全不同的idea结合起来以合成物体的能力,其中有些物体不可能在现实世界中存在。OpenA在两种情况下探索这种能力:将各种概念的特质传递给动物,以及从不相关的概念中汲取灵感来设计产品。

文本提示:竖琴状的蜗牛

AI生成的图像:

文本提示:鳄梨形状的扶手椅。

AI生成的图像:

动物插图描述

在上一部分中探讨了DALL·E在生成真实物体的图像时结合无关概念的能力。接下来,OpenAI通过在艺术的背景下的三种插图探索这种能力:动物和物体的拟人化版本、动物嵌合体、表情符号。

文本提示:穿着芭蕾舞短裙的萝卜宝宝在遛狗。

AI生成的图像:

文本提示:长颈鹿乌龟合体的专业高质量插图,模仿乌龟的长颈鹿,由乌龟变成的长颈鹿。

AI生成的图像:

文本提示:一个专业的高质量的恋爱波霸珍珠奶茶表情符号

AI生成的图像:


零样本视觉推理 

可以仅根据说明和提示来指示GPT-3执行多种任务,而无需任何额外训练。例如,当提示短语“将‘在公园里walking狗的人’被翻译成法语:”时,GPT-3会回答“un homme quipromèneson chien dans le parc。此功能称为零样本推理。

OpenAI发现DALL·E将此功能扩展到了视觉领域,并且在以正确的方式提示时,能够执行多种图像到图像的翻译任务。

文本+图像提示:参照上面的猫在下面生成草图。

 

AI生成的图像: 

文本+图像提示:画出和上面一样的茶壶,并在茶壶上写上“GPT”。

AI生成的图像: 

OpenAI惊讶地发现DALL·E居然有这种神奇的能力,因为他们没有对神经网络或训练程序进行任何修改。

受这些结果的启发,OpenAI通过在Raven的渐进矩阵上进行测试来衡量DALL·E对于解决类推推理问题的能力,这是一种视觉智商测试,在20世纪得到了广泛应用。

文本+图像提示:一个几何形状序列。

AI生成的图像:

地理知识

OpenAI 发现DALL·E了解地理事实、地标和街区。它对这些概念的了解在某些方面出奇地精确,而在另一些方面却有缺陷。

文本提示:中国食物的图片。

AI生成的图像:

文本+图像提示:旧金山金门大桥的图片。

AI生成的图像:

时间知识

除了探索DALL·E关于随空间变化的概念的知识外,OpenAI还探索了其随时间变化的概念的知识。

文本+图像提示:从20年代起发明的电话的照片。

AI生成的图像:

2

总结:方法和先前工作

DALL·E是一个仅有解码器的Transformer架构,它可以接收1280个token的文本和图像作为单个流(文本为256个token,图像为1024个token),并对它们全部进行自动回归建模。

它的64个自注意力层中的每一个都具有注意力mask,使每个图像token都可以匹配所有文本token。DALL·E对文本token使用标准的因果mask,以行、列或卷积注意模式对图像token使用稀疏注意,具体取决于层数。

OpenAI计划在下一篇论文中提供有关DALL·E架构和训练过程的详细信息。

与VQVAE-2中使用的rejection sampling类似,OpenAI使用CLIP对每个文本生成的512个采样中的前32个进行排名。此过程也可以看作是一种语言指导的搜索,会对样本质量产生巨大影响。

如下图所示,使用CLIP对DALL·E中的样本进行重新排序,可以大大提高样本的一致性和质量。 

文本提示:穿着芭蕾舞短裙的萝卜宝宝在遛狗。

AI生成的图像:

Henry AI Labs在YouTube上分享了一个视频,简要介绍了OpenAI的DALL-E模型,并表示“希望可以清楚说明深度神经网络中文本和图像是如何作为张量统一的。”

由于是非官方解释,仅供参考。 

最后,大家对DALL·E 这个的神经网络模型有什么应用上的期待呢?二维设计师?

又会觉得它会引导什么AI革命吗?又或者觉得它会存在很多不可避免的限制?

原文链接:

https://openai.com/blog/dall-e/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/485746.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL快速生成连续整数

很多时候需要用到连续的id进行数据对比,如判断是否连续等问题。那么,生成连续整数的方式有多种,首先容易想到的是逐步循环,如果想生成1kw条记录,则需要循环1kw次进行插入,那么有没有其他方式呢,…

MySQL小问题:The server time zone value 'Öйú±ê׼ʱ¼ä' is unrecognized or represents...

这是因为时区设置不对 问题背景: 在运行storm项目,进行页面显示的时候,报错: java.sql.SQLException: The server time zone value is unrecognized or represents more than one time zone. 这是时区的问题。 我采用的第一个…

中国电子信息工程科技发展十四大趋势(2021)

来源:科技日报、中国电子报(转载请注明来源)编辑:蒲蒲1月5日,中国工程院信息与电子工程学部、中国信息与电子工程科技发展战略研究中心发布“中国电子信息工程科技发展十四大趋势(2021)”&#…

rosserial_java_[学习笔记]Rosserial实现Windows-ROS交互操作(1)

安装sudo apt-get install ros-indigo-rosserial-windowssudo apt-get install ros-indigo-rosserial-server编译rosrun rosserial_windows make_libraries.py my_library运行后会产生一个my_library文件夹,在my_library这个文件夹下会生成ros_lib文件夹Windows下创…

Leetcode--122. 买卖股票的最佳时机Ⅱ

给定一个数组,它的第 i 个元素是一支给定股票第 i 天的价格。 设计一个算法来计算你所能获取的最大利润。你可以尽可能地完成更多的交易(多次买卖一支股票)。 注意:你不能同时参与多笔交易(你必须在再次购买前出售掉…

语法树的画法(根据文法求字符串)

目录 1.语法树的画法 2.语法树的短语 3.直接短语(直接到根部) 4.素短语 5.句柄 6.算符优先分析句型 1.语法树的画法 文法G[E]:E->EE | E*E | (E) | i ,字符串 ii*i 推导方式有两种最左推导和最右推导(推导的技巧就是逐步靠近字符串…

AI专家喋喋不休展开争论 为什么说预测是智能的本质

来源: 网易智能编译:网易智能 选自:medium参与:Rosie【网易智能讯 6月22日消息】机器学习和智能都植根于预测,这是巧合吗?当我们的技术体现了智能的本质时,我们正在接近一个紧要关头吗?或者说我…

图解丨卷积神经网络数学原理解析

原标题:Gentle Dive into Math Behind Convolutional Neural Networks作 者:Piotr Skalski 编 辑 | Pita  翻 译:通夜(中山大学)、had_in(电子科技大学)自动驾驶、智能医疗保健和自助零售这…

[2018湖南省队集训] 6.28 T3 simulate

这道模拟题出的我毫无脾气2333 最重要的是先要发现操作顺序不影响最后的答案,也就是每次随便挑一个>2的数进行操作最后总是可以得到同样的数列。 (这个还不太难想qwq) 但是最骚的是接下来的模拟。。。。 我们考虑从左到右消,假设目前在i,1…

“AI工厂”本质:AI基础设施及怎样将AI转化为运营动力

来源:TechTalks作者:Ben Dickson编译:科技行者持续关注人工智能新闻的朋友肯定已经发现,AI这个字眼已经被异化成了两个截然不同的定义。媒体和影视作品喜欢把AI描述成已然具备人类般的能力、会导致大量失业甚至会出动机械部队进行…

继续深入更新shell脚本容易出错的地方

一、在shell中用到如果需要输入某些值,需要用到read -p命令 这是我写的猜数字游戏,一开始在输出的时候,屏幕上总会打印输出 "INT" 经过反复的练习才发现 双引号后面应该跟着一个空格,然后在写变量,就不会把…

中国工程院发布2021中国电子信息工程科技发展十四大趋势

来源:人民邮电报1月5日,中国工程院信息与电子工程科技发展战略研究中心发布“中国电子信息工程科技发展十四大趋势(2021)”。这十四大趋势涵盖信息化、计算机系统与软件、网络与通信、计算机应用、网络安全、集成电路、数据、感知…

AcWing--2.01背包问题

有 NN 件物品和一个容量是 VV 的背包。每件物品只能使用一次。 第 ii 件物品的体积是 vivi,价值是 wiwi。 求解将哪些物品装入背包,可使这些物品的总体积不超过背包容量,且总价值最大。 输出最大价值。 输入格式 第一行两个整数&#xff…

java实现数组排序代码_Java使用选择排序法对数组排序实现代码

编写程序,实现将输入的字符串转换为一维数组,并使用选择排序法对数组进行排序。思路如下:点击"生成随机数"按钮,创建Random随机数对象;使用JTextArea的setText()方法清空文本域;创建一个整型一维…

ICinsights:中国芯片难达成既定的2025目标

来源:内容由半导体行业观察(ID:icbank)综合自「ICinsights」,谢谢。据知名分析机构ICinsights报道,在中国的集成电路市场和中国的本土集成电路生产之间应该有一个非常明显的区别。正如IC Insights经常指出的…

2021年5G发展展望

来源:中国电子信息产业发展研究院(转载请注明来源)编辑: 蒲蒲日前,在2020通信产业大会暨第十五届通信技术年会上,工信部赛迪智库发布了《5G发展2021展望白皮书》。白皮书内容包括对2021年5G形势的基本判断、…

博弈论笔记--03--迭代剔除和中位选民定理

迭代剔除策略:先站在所有人的角度,删除所有的劣势策略,然后重复这个过程。Game One--中间选民定理的例子博弈者:2个Players需要选择自己的政治立场。策略选项:一共有1-10种政治立场,每种都有10%的选民支持。收益:候选者…

喜忧参半:我国蜂窝物联网全球占比超过75%

来源: C114通信网随着连接技术的不断创新,我们将迎来真正万物互联的智能世界。而在物联网产业链条中,通信运营商一直扮演着至关重要的角色。知名物联网市场研究机构IoT Analytics的数据显示:蜂窝物联网连接数方面,中国电信、中国联…

Leetcode--84. 柱状图中最大的矩形

给定 n 个非负整数,用来表示柱状图中各个柱子的高度。每个柱子彼此相邻,且宽度为 1 。 求在该柱状图中,能够勾勒出来的矩形的最大面积。 以上是柱状图的示例,其中每个柱子的宽度为 1,给定的高度为 [2,1,5,6,2,3]。 图…

2021机器智能研究方向

来源:人工智能和大数据 在机器智能向更大的深度神经网络发展的过程中,训练效率将成为Graphcore Research在2021年的重点工作。大型、过参数化模型的训练不断展现出改进的训练和泛化性能。事实上,在许多领域,较大的模型样本效率更高…