谷歌夺回AI画语权,机器的想象力达到全新高度,网友:DALL·E 2诞生一个月就过时了?...

3f873d41823843bc301832771aeb806e.png

来源:量子位

在让AI搞创作这件事上,谷歌和OpenAI正面刚起来了。

这不,震惊全网的DALL·E 2才新鲜出炉一个月,谷歌就派出名为Imagen的选手来打擂台。

297782ad1ffb49d2c882aac2f1340f8e.png

直接上图对比,左边是谷歌Imagen选手眼中的“猫猫绊倒人类雕像”,右边则是DALL·E 2选手的同题创作。

7762525a92c0a6100d3062225f49df77.png

你觉得哪一位选手的作品更符合题意?

而让网友们直呼“DALL·E 2这就过时了?”的,还不只是这种正面PK的刺激。

看到这么一张照片,如果不说是AI生成的,是不是要先感叹一句两脚兽的摆拍技术越来越高超了?

a62dd22e8227de068e2394175d9569e7.png

输入“折纸作品:一只狐狸和一只独角兽在飘雪的森林里”,Imagen创作出的画面则是酱婶的:

35b7f4114df82aea9fb7a9b041ebf08a.png

还可以试试把文字写得长一点。

比如《一只非常快乐的毛茸熊猫打扮成了在厨房里做面团的厨师的高对比度画像,他身后的墙上还有一幅画了鲜花的画》…(啊先让我喘口气)

Imagen也轻松拿下,要素齐全:

8002b9ef813e44ff5d2acca509774a08.png

看到这,机器学习圈的网友反应是这样的:

不是吧,这才一个月就又更新换代了?

29a8f34ad5ad5c515039b67c0e96eb95.png

求求别再震惊我了。

61e1797216b3a132ebee04221217878d.png

这事儿热度一起,很快就破了圈。

吃瓜群众们立刻就想到一块去了。

以后可能没图库网站什么事儿了。

7e47f27369fd288231e9858a6c06fcdd.png

那么这个来自谷歌的新AI,又掌握了什么独家秘技?

具体详情,我们一起接着往下看。

增强「理解」比优化「生成」更重要

文本到图像生成我们之前介绍过不少,基本都是一个套路:

CLIP负责从文本特征映射到图像特征,然后指导一个GAN或扩散模型生成图像。

但谷歌Imagen这次有个颠覆性的改变——

使用纯语言模型只负责编码文本特征,把文本到图像转换的工作丢给了图像生成模型。

语言模型部分使用的是谷歌自家的T5-XXL,训练好后冻结住文本编码器。

图像生成部分则是一系列扩散模型,先生成低分辨率图像,再逐级超采样。

37795e88cc6c2d25796301420eac8f02.png

这样做最大的好处,是纯文本训练数据要比高质量图文对数据容易获取的多。

T5-XXL的C4训练集包含800GB的纯文本语料,在文本理解能力上会比用有限图文对训练的CLIP要强。

这一点也有着实验数据做支撑,人类评估上,T5-XXL在保真度和语义对齐方面表现都比CLIP要好。

fd5634e308631abf3ed5c89d809775c1.png

在实验中谷歌还发现,扩大语言模型的规模对最后效果影响更大,超过扩大图像生成模型的影响。

bb6fc4334b268d3b592ea674bab22a00.png

看到这有网友指出,谷歌最后采用的T5-XXL参数规模还不到最新PaLM语言模型5400亿参数的1%,如果用上PaLM,又会是啥样?

2e93f6c5436a6978863eba2188409bc5.png

除了语言模型部分的发现,谷歌通过Imagen的研究对扩算模型作出不少优化。

首先,增加无分类器引导(classifier-free guidance)的权重可以改善图文对齐,但会损害图像保真度。

解决的办法是每一步采样时使用动态阈值,能够防止过饱和。

d8c73af700fa813089f77560a42714a0.png

第二,使用高引导权重的同时在低分辨率图像上增加噪声,可以改善扩散模型多样性不足的问题。

第三,对扩散模型的经典结构U-Net做了改进,新的Efficient U-Net改善了内存使用效率、收敛速度和推理时间。

对语言理解和图像生成都做出改进之后,Imagen模型作为一个整体在评估中也取得了很好的成绩。

比如在COCO基准测试上达到新SOTA,却根本没用COCO数据集训练

af117a0b361d5ac5c52743d7048f51c8.png

在COCO测试的人类评估部分也发现了Imagen的一个缺点,不擅长生成人类图像。

具体表现是,无人类图像在写实度上获得更高的人类偏好度。

4026fbe5ff38e4dd9cc4ede01a0dcb0e.png

同时,谷歌推出了比COCO更有挑战性的测试基准DrawBench,包含各种刁钻的提示词。

实验发现,DALL·E 2难以准确理解同时出现两个颜色要求的情况,而Imagen就没问题。

ac1d65e3669c4d95235e6f16ff2f5111.png

反常识情况,比如“马骑着宇航员”两者表现都不佳,只能画出“宇航员骑着马”。

但是Imagen对“一只熊猫在做咖啡拉花”理解更准确,只错了一次。DALL·E 2则全都把熊猫画进了拉花图案里。

c573a6ada5b0238e1a6836fb7dbeb12d.png


△大概“马骑着宇航员”有点反常识(狗头)

对于要求图像中出现文字的,也是Imagen做得更好。

除了最基本的把文字写对以外,还可以正确给文字加上烟花效果。

aa667110a1fbdbf9c3c48f4b0241f609.png


AI画画越来越出圈

说起来,AI作画这件事,最早便源起于谷歌。

2015年,谷歌推出DeepDream,开创了AI根据文本生成图像的先河。

d49119250983a0df36ff053cd26b3efc.png

△DeepDream作品

但要说相关技术真正开“卷”、出圈,标志性事件还得数2021年OpenAI的DALL·E横空出世。

当时,吴恩达、Keras之父等一众大佬都纷纷转发、点赞,DALL·E甚至被称为2021年第一个令人兴奋的AI技术突破。

随后,语言理解模型和图像生成模型多年来的技术进展,便在“AI作画”这件事上集中爆发,一系列CLIP+GAN、CLIP+扩散模型的研究和应用,频频在网络上掀起热潮。

e42ff83ec6cdf31ff12b37e450047cd9.png

从此一发不可收拾,技术更新迭代越来越快。

DALL·E 2刚发布的时候就有网友发起一个投票,问多长时间会出现新的SOTA。

当时大多数人选了几个月1年以上

815429d89287d3e5b38e219aa7742c28.png

但现在,Imagen的出现只用了6周

随着AI画画效果越来越强大,受众范围也不断扩大,突破技术圈进入大众视野。

前一阵,就有AI画画应用登上苹果App Store图形与设计排行榜榜首。

bed3b78bfc7fea1e6421ccf2012ea8be.png

现在最新的潮流,是各路设计师排队申请Midjourney、Tiamat等商业化产品的内测,刷爆社交网络。

04261e94202a1e536c4e19f9c5c070e2.png

如此出圈,也给OpenAI和谷歌这样的大公司带来很大压力。

出于AI伦理、公平性等方面考虑,DALL·E 2和Imagen都没有直接开源或开放API。

各自也都在论文里有大篇幅涉及风险、社会影响力的内容。

72a7c9a14ef43f5f0bd0a8d54b0523d2.png

OpenAI选择了内测模式,而谷歌还在做进一步研究和规范,等到确保AI不被滥用之后再择机公开。

现在想体验Imagen的话,有一个在线Demo演示。

可以从给定的几个提示词中自由组合出不同场景。

688113210f59ef1b41d4dea90b7ade7c.gif

快来试试吧~

Demo地址:
https://gweb-research-imagen.appspot.com

论文地址:
https://gweb-research-imagen.appspot.com/paper.pdf

参考链接:
https://twitter.com/ak92501/status/1528861980702146560

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

d98f4889e7fe3addb1315cbf87712932.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482040.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux安装MySQL的完整步骤并有关MySQL8.0版本的问题方法

目录 QUESTION:Linux安装MySQL的完整步骤? ANSWER: 一:使用wget 直接下载 二:安转软件源,将platform-and-version-specific-package-name 替换为你下载的rpm名 三:安装mysql服务端 四:首先启动mysql 五&#x…

研究遭质疑,Jeff Dean回应:我们本就不是为得到新SOTA,成本计算也搞错了

来源:机器之心编辑:杜伟、陈萍对于 Jeff Dean 的回复,你认同吗?昨日,整个社区最热门的话题无外乎是 reddit 上一名机器学习研究者对谷歌 AI 负责人 Jeff Dean 参与论文的质疑。这篇论文是《An Evolutionary Approach t…

全脑地图:单个记忆被拆分存储在多个相连的大脑区域

来源:神经生物学根据一项创新的脑域映射研究,单一的记忆被存储在许多连接的大脑区域。创新的脑成像研究表明,“记忆印记”,编码记忆的神经元集合,广泛分布,包括在以前没有意识到的区域。麻省理工学院皮考尔…

李德毅 | 新一代人工智能如何从传统人工智能中脱颖而出

来源:图灵人工智能 作者:李德毅 中国工程院院士、CAAI名誉理事长、主线科技首席科学家2021年4月10日,“吴文俊人工智能科学技术奖”十周年颁奖盛典在北京举办。颁奖典礼上,中国工程院院士、中国人工智能学会名誉理事长李德毅荣获…

【强基固本】现在的人工智能是否走上了数学的极端?

来源:知乎—谢凌曦地址:https://www.zhihu.com/question/519393525/answer/2430233113“强基固本,行稳致远”,科学研究离不开理论基础,人工智能学科更是需要数学、物理、神经科学等基础学科提供有力支撑,为…

智源发布线虫生命模型,超级人脑有望在未来15-30年实现

出品:CSDN(ID:CSDNnews)作者:田玮靖 5月31日,作为国际性、权威性、专业性和前瞻性的“内行AI盛会”——智源大会开幕,会上,智源研究院发布了其最新研究成果线虫生命模型——天宝…

Aquarium华人CEO分享:机器学习在自动驾驶中落地,核心不是模型,是管道

来源:AI科技评论作者:Peter Gao编译:刘冰一编辑:陈彩娴作者 Peter Gao 是 Aquarium 公司的联合创始人和首席执行官(CEO),Aquarium 公司建立了寻找和修复深度学习数据集问题的工具。在 Aquarium …

数据科学中的 10 个重要概念和图表的含义

大数据文摘转载自数据派THU来源:DeepHub IMBA“当算法给你一条曲线时,一定要知道这个曲线的含义!”1、偏差-方差权衡这是一个总是在机器学习最重要理论中名列前茅的概念。机器学习中的几乎所有算法(包括深度学习)都努力…

Java总结:Spring5框架(1)

Spring5框架(1) 一:什么是Spring? Spring框架是由于软件开发的复杂性而创建的。Spring使用的是基本的JavaBean来完成以前只可能由EJB完成的事情。然而,Spring的用途不仅仅限于服务器端的开发。从简单性、可测试性和松耦合性角度而…

专访|79岁图灵奖获得者迈克尔·斯通布雷克谈“数字经济”与“元宇宙”

迈克尔斯通布雷克(Michael Stonebraker)被誉为“世界上最重要的数据库专家之一”,是数据库领域的第4位图灵奖得主来源:数据观撰稿:黄玉叶编辑:蒲蒲如果说硅是未来的新型石油,那么数据就好比新型…

Windows下如何搭建Gradle环境?

QUESTION:Windows下如何搭建Gradle环境? 目录 QUESTION:Windows下如何搭建Gradle环境? ANSWER: 1.开发环境 2.安装步骤 (1)下载最新的Gradle压缩包 (2)解压下载的压缩包到指定位置,比如: (3)配置环境变量 3.测试配置是否成功 ANSWER: 1.开发环境…

2029年会实现通用人工智能吗?Gary Marcus「叫板」马斯克:赌十万美元如何?

来源:AI科技评论作者:王玥编辑:陈彩娴5月30日,世界级红人埃隆马斯克(Elon Musk)发了一条推文,称:2029年是关键的一年,如果那时候我们还没有实现通用人工智能(…

Java总结:SpringBoot的使用cmd命令进行Gradle构建

QUESTION:SpringBoot的使用cmd命令进行Gradle构建 ANWSER: 目录 QUESTION:SpringBoot的使用cmd命令进行Gradle构建 ANWSER: 一:下载SpringBoot工程 二:CMD命令构建gradle 一:下载SpringBoot工程 打开:https://spring.io/pr…

Python之父Guido Van Rossum:炒作之火或将“摧毁” Web 3

来源:Yin Long Ma译者:核子可乐策划:刘燕去中心化互联网压根没戏,Web 3 开发者都是小丑:关于 Web 3,我们到底该相信什么?去中心化互联网是怎么回事?互联网源自 Web 1.0 时代&#xf…

Python:使用matplotlib进行绘图时中文变成乱码的解决

QUESTION:Python:使用matplotlib进行绘图时中文变成乱码的解决? ANSWER: 在绘图前加上下面的代码: plt.rcParams[font.sans-serif][SimHei] #用来正常显示中文标签 plt.rcParams[axes.unicode_minus]False #用来正常显示负号例子: from matplotlib import pyplot as plt pl…

两篇Nature最新研究成果:令细胞衰老的基因突变作用机制的新理论

来源:生物通研究人员发现,基因突变在人的一生中是缓慢积累的,从而导致70岁后血液形成发生巨大变化,这为衰老提供了一种新的理论。一项新的研究揭示了贯穿一生、在血液干细胞中缓慢积累的基因变化可能是导致70岁后血液生产发生巨大…

美国陆军:2045年20项新兴科技趋势报告

来源:硅谷智库 这份报告是美国陆军公布的一份长达35页的《2016-2045年新兴科技趋势报告》。它是美国在过去几年由政府机构、咨询机构、智囊团、科研机构等发表的32份科技趋势相关研究调查报告的基础上提炼形成的。通过对近700项科技趋势的综合比对分析&#xff…

利用宇宙的能力来处理数据!「物理网络」远胜深度神经网络

来源:AI科技评论作者:Charlie Wood编译:王玥编辑:岑峰轮到物理学家来揭示神经网络的本质了:他们在尝试让宇宙为我们处理数据。在一个隔音的板条箱里有着一个世界上最糟糕的神经网络。在看到数字6的图像后,这…

银行家算法总结及实现

QUESTION:银行家算法总结及实现? 目录 QUESTION:银行家算法总结及实现? ANSWER: 一:银行家算法介绍 1.1什么是银行家算法 1.2背景 1.3数据结构 1.4算法分析 二:安全状态和不安全状态 2.1概念 2.2安全性检查 三:算法实现 3.1流…

用10000个电极窃听大脑

来源:大数据文摘作者:BARUN DUTTA原文标题:EAVESDROPPING ON THE BRAIN WITH 10,000 ELECTRODES让我们想象一台由 860 亿个交换机组成的计算机:其通用智能足以构建一个航天文明——但重量仅为1.2公斤,仅消耗20 瓦的功率…