AI绘画何以突飞猛进? 从历史到技术突破, 一文读懂火爆的AI绘画发展史

前言

自从前段时间偶然间被当下AI绘画的水平震住之后(超越一切的AI作画神器,和它创作的234个盔甲美女未来战士) ,作者深感当今AI绘画的飞速进展或许已远超所有人的预期。 而这里的前因后果,包括AI绘画的历史,以及最近的突破性进展,值得好好和大伙儿梳理和分享一下。 因此有了本文。

本文分为如下几小节:

  1. 2022,进击的AI绘画
  2. AI绘画的历史
  3. AI绘画何以突飞猛进
  4. 顶级AI绘画模型的PK
  5. AI绘画的突破对人类意味着什么

一、2022,进击的AI绘画

今年以来,输入文本描述自动生成图片的AI绘画神器突然雨后春笋的冒了出来。

首先是Disco Diffusion。

Disco Diffusion 是在今年 2 月初开始爆红的一个 AI 图像生成程序,它可以根据描述场景的关键词渲染出对应的图像:

在这里插入图片描述

到了今年4月,著名人工智能团队OpenAI 也发布了新模型 DALL·E 2代,该名称来源于著名画家达利(Dalí)和机器人总动员(Wall-E),同样支持从文本描述生成效果良好的图像。

在这里插入图片描述

而很多读者对AI绘画开始产生特别的关注,或许是从以下这幅AI作品闹出的新闻开始的:

在这里插入图片描述

这是一幅使用AI绘画服务 MidJourney 生成的数字油画,生成它的用户以这幅画参加美国科罗拉多州博览会的艺术比赛,夺得了第一名。 这件事被曝光之后引发了网络上巨大的争论至今。

目前 AI绘画的技术仍在不断变化发展中,其迭代之快,完全可以用”日新月异”来形容。即使把今年年初的AI绘画和现在相比,效果也有天壤之别。

在年初的时候,用Disco Diffusion可以生成一些很有氛围感的草图,但基本还无法生成人脸; 仅仅2个月后,DALL-E 2已经可以生成准确的五官; 现在,最强大的Stable Diffusion在画作的精致程度和作画速度上更是有了一个量级的变化。

AI绘画这项技术并不是近年才有的,但是今年以来,AI产出作品的质量以肉眼可见的速度日益提升,而效率也从年初的一个小时缩短到现在的十几秒。

在这个变化后面,究竟发生了什么事情?就让我们先全面回顾一下AI绘画的历史,再来理解一下,这一年多来,AI绘画技术足以载入史册的突破发展。

二、AI绘画的历史

AI绘画的出现时间可能比很多人想象的要早。

计算机是上世纪60年代出现的,而就在70年代,一位艺术家,哈罗德·科恩Harold Cohen(画家,加利福尼亚大学圣地亚哥分校的教授) 就开始打造电脑程序”AARON”进行绘画创作。 只是和当下AI绘画输出数字作品有所不同,AARON是真的去控制一个机械臂来作画的。

Harold 对 AARON的改进一直持续了几十年,直到他离世。 在80年代的时候,ARRON”掌握”了三维物体的绘制; 90年代时,AARON能够使用多种颜色进行绘画,据称直到今天,ARRON仍然在创作。

不过,AARON的代码没有开源,所以其作画的细节无从知晓,但可以猜测,ARRON只是以一种复杂的编程方式描述了作者Harold本人对绘画的理解 — 这也是为什么ARRON经过几十年的学习迭代,最后仍然只能产生色彩艳丽的抽象派风格画作,这正是 Harold Cohen 本人的抽象色彩绘画风格。 Harold用了几十年时间,把自己对艺术的理解和表现方式通过程序指导机械臂呈现在了画布上。

在这里插入图片描述

尽管难说AARON如何智能,但作为第一个自动作画且真的在画布上作画的程序,给予它一个AI作画鼻祖的称号,倒也符合其身份。

2006年,出现了一个类似ARRON的电脑绘画产品 The Painting Fool。 它可以观察照片,提取照片里的块颜色信息,使用现实中的绘画材料如油漆,粉彩或者和铅笔等进行创作。

以上这两个例子算是比较”古典”方式的电脑自动绘画,有点像一个学步的婴儿,有一点样子,但从智能化的角度来看是相当初级的。

而现在,我们所说的”AI绘画”概念,更多指的是基于深度学习模型来进行自动作图的计算机程序。 这个绘画方式的发展其实是比较晚的。

在2012年 Google两位大名鼎鼎的AI大神,吴恩达和Jef Dean进行了一场空前的试验,联手使用1。6万个CPU训练了一个当时世界上最大的深度学习网络,用来指导计算机画出猫脸图片。 当时他们使用了来自youtube的1000万个猫脸图片,1。6万个CPU整整训练了3天,最终得到的模型,令人振奋的可以生成一个非常模糊的猫脸。

在今天看起来,这个模型的训练效率和输出结果都不值一提。 但对于当时的AI研究领域,这是一次具有突破意义的尝试,正式开启了深度学习模型支持的AI绘画这个”全新”研究方向。

在这里我们稍微讲一点技术细节: 基于深度学习模型的AI绘画究竟有多麻烦呢,为什么2012年已经很现代水平的大规模计算机集群耗时多天的训练只能得出一点可怜的结果?

读者们或许有个基本概念,深度学习模型的训练简单说来就是利用外部大量标注好的训练数据输入,根据输入和所对应的预期输出,反复调整模型内部参数加以匹配的过程。

那么让AI学会绘画的过程,就是构建已有画作的训练数据,输入AI模型进行参数迭代调整的过程。

一幅画带有多少信息呢?首先就是长x宽个RGB像素点。 让计算机学绘画,最简单的出发点是得到一个输出有规律像素组合的AI模型。

但RGB像素组合一起的并非都是画作,也可能只是噪点。 一副纹理丰富,笔触自然的画作有很多笔画完成,涉及绘画中每一笔的位置,形状,颜色等多个方面的参数,这里涉及到的参数组合是非常庞大的。 而深度模型训练的计算复杂度随着参数输入组合的增长而急剧增长…… 大家可以理解这个事情为啥不简单了。

在吴恩达和Jeff Dean开创性的猫脸生成模型之后,AI科学家们开始前赴后继投入到这个新的挑战性领域里。 在2014年,AI学术界提出了一个非常重要的深度学习模型,这就是大名鼎鼎的对抗生成网络GAN(Generative Adverserial Network,GAN)。

正如同其名字”对抗生成”,这个深度学习模型的核心理念是让两个内部程序 “生成器(generator)” 和“判别器(discriminator)”互相PK平衡之后得到结果。

GAN模型一问世就风靡AI学术界,在多个领域得到了广泛的应用。 它也随即成为了很多AI绘画模型的基础框架,其中生成器用来生成图片,而判别器用来判断图片质量。 GAN的出现大大推动了AI绘画的发展。

但是,用基础的GAN模型进行AI绘画也有比较明显的缺陷,一方面是对输出结果的控制力很弱,容易产生随机图像,而AI艺术家的输出应该是稳定的。 另外一个问题是生成图像的分辨率比较低。

分辨率的问题还好说,GAN在”创作”这个点上还存在一个死结,这个结恰恰是其自身的核心特点: 根据GAN基本架构,判别器要判断产生的图像是否和已经提供给判别器的其他图像是同一个类别的,这就决定了在最好的情况下,输出的图像也就是对现有作品的模仿,而不是创新…………

在对抗生成网络GAN之外,研究人员也开始利用其他种类的深度学习模型来尝试教AI绘画。

一个比较著名的例子是2015年 Google发布的一个图像工具深梦(Deep Dream)。 深梦发布了一系列画作,一时吸引了很多眼球。谷歌甚至为这个深梦的作品策划了一场画展。

在这里插入图片描述

三、AI绘画何以突飞猛进

在很多科幻电影或剧集里,往往会有这么一幕,主角和特别有科幻感的电脑AI说了一句话,然后AI生成了一个3D影像,用VR/AR/全息投影的方式呈现在主角面前。

抛开那些酷炫的视觉效果包装,这里的核心能力是,人类用语言输入,然后电脑AI理解人类的表达,生成一个符合要求的图形图像,展示给人类。

仔细一想,这个能力最基础的形式,就是一个AI绘画的概念嘛。(当然,从平面绘画到3D生成还稍有一点距离,但相比于AI凭空创作一幅具象有意义的绘画作品的难度,从2D图自动生成对应的3D模型就不是一个量级上的问题)

所以,无论是用说话控制,还是更玄乎的脑电波控制,科幻影视中的酷炫场景实际上描述了一种AI能力 ,那就是把”语言描述” 通过AI理解自动变为了图像。 目前语音自动识别文本的技术已经成熟至极,所以这本质上就是一个从文本到图像的AI绘画过程。

四、顶级AI绘画模型的PK:Stable Diffusion V.S MidJourney

作者在之前文章里已经介绍了MidJourney这个在线AI作画神器,它最大的优点就是零门槛的交互和非常好的输出结果。创作者无需任何技术背景就能利用基于Discord的MidJourney bot进行对话式绘画创作(恩,当然,全英文)

从输出风格上看,MidJourney非常明显针对人像做了一些优化,用多了后,MidJourney的风格倾向也比较明显(作者在MidJourney上花了数百刀的计算资源尝试了各种主题创作后的第一手感受),说得好听是比较细腻讨巧,或者说,比较油腻一点点。

而Stable Diffusion的作品,就明显的更淡雅一些,更艺术化一些。

哪种风格更好?其实萝卜青菜各有所爱。

因为做过针对性的优化,如要出人像图或者糖水风格美图用MidJourney更方便。 但比较了多张作品后,作者认为Stable Diffusion还是明显技高一筹,无论从艺术表达上还是风格变化的多样性上。

不过,MidJourney这几个月的迭代是有目共睹的快(毕竟是付费服务,很赚钱很有动力啊),加上Stable Diffusion的完全开源,预计相关技术优势会很快被吸收进MidJourney。 而另一方面,Stable Diffusion模型的训练还在持续进行中,我们可以非常期待,未来版本的Stable Diffusion模型也将百尺竿头更进一步。

对所有的创作者用户而言,这都是天大的好事。

五、AI绘画的突破对人类意味着什么

2022年的AI领域,基于文本生成图像的AI绘画模型是风头无两的主角。 从2月份的Disco Diffusion开始,4月 DALL-E 2和MidJourney邀请内测,5月和6月Google发布两大模型Imagen 和Parti(不开放内测只有论文,感觉略水),然后7月底,Stable Diffusion横空出世……

真的让人眼花缭乱。 也勿怪作者在上篇文章里感慨,怎么稍不注意AI绘画的水平就突飞猛进到如此地步,事实上,确实就是在这一年半载里,AI绘画发生了革命性的,甚至可以说历史上会留名的突破性进展。

而接下去的时间里,AI绘画,或者更广泛的,AI生成内容领域(图像,声音,视频,3D内容等……)还会发生什么,让人充满了遐想和期待。

但不用等待未来,体验了当下以Stable Diffusion 为代表的最先进AI绘画模型所能触达的艺术高度,我们已经基本可以确认,”想象力”和”创造力”这两个曾经充满着神秘主义的词汇,同时也是人类最后的骄傲,其实也是可以被技术解构的。

对人类灵魂神圣至上说法的拥护者而言,当今AI绘画模型所展现的创造力,是一种对信仰的无情打击。 所谓灵感,创造力,想象力,这些充满着神性的词,即将(或者已经)被超级算力+大数据+数学模型的强力组合无情打脸了。

事实上,类似Stable Diffusion这种AI生成模型的一个核心思路,或者说很多深度学习AI模型的核心思路,就是把人类创作的内容,表示为某个高维或者低维数学空间里的一个向量(更简单的理解,一串数字)。 如果这个”内容-向量”的转化设计足够合理,那么人类所有的创作内容都可以表示为某个数学空间里的部分向量而已。 而存在于这个无限的数学空间里的其他向量,正是那些理论上人类可能创造,但尚未被创造出来的内容。 通过逆向的”向量-内容”的转换,这些还没被创造的内容就被AI挖掘出来了。

这正是目前MidJourney,Stable Diffusion这些最新AI绘画模型所做的事情。 AI可以说是在创作新的内容,也可以说是新绘画作品的搬运工。AI产生的新绘画作品在数学意义上一直客观存在,只是被AI通过很聪明的方式,从数学空间里还原出来,而已。

写在最后

感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。
在这里插入图片描述

AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。

在这里插入图片描述

一、AIGC所有方向的学习路线

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述

在这里插入图片描述

二、AIGC必备工具

工具都帮大家整理好了,安装就可直接上手!
在这里插入图片描述

三、最新AIGC学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
在这里插入图片描述
在这里插入图片描述

四、AIGC视频教程合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/43596.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

十九.升职加薪系列-JVM优化-解决JVM性能瓶颈的JIT即时编译器

前言 在很多年以前,做C或者C的程序员经常说Java语言的运行速度不如C或C,Java运行速度慢主要是因为它是解释执行的,而C或C是编译执行的,解释执行需要通过JVM虚拟机将字节码实时翻译成机器码(边翻译边执行)&…

Rust 版本升级:rustup update stable 报错

Rust 版本升级 rustup update stable 报错 一、报错内容 error: could not download file from ‘https://static.rust-lang.org/dist/channel-rust-stable.toml.sha256’ to ‘/Users/xxx/.rustup/tmp/rv6vdfu3eupwo64m_file’: failed to make network request: error sendi…

【实战场景】@Transactional中使用for update的注意点

【实战场景】Transactional中使用for update的注意点 开篇词:干货篇:知识回顾注意点1.锁的范围和粒度:2.事务的隔离级别:3.死锁:4.性能影响:5.事务的边界:6.异常处理:7. 数据库和存储…

【漏洞复现】网神 SecGate 3600 防火墙 sys_export_conf_local_save 任意文件读取

免责声明: 本文内容旨在提供有关特定漏洞或安全漏洞的信息,以帮助用户更好地了解可能存在的风险。公布此类信息的目的在于促进网络安全意识和技术进步,并非出于任何恶意目的。阅读者应该明白,在利用本文提到的漏洞信息或进行相关测…

javaweb学习day5--《HTML篇》Springboot的模块创建、HTML的相关知识点详解

一、前言 从今天开始,就要启动后端的学习了,Springboot会贯穿到底,一定要跟着小编严谨的去搭建Springboot环境,依赖添加的过程可能需要2分钟左右,读者们要耐心等待一下,搭建好Springboot之后才算正式的开始…

算力革命:弹性租赁,解锁无限可能

华为创始人任正非曾在一场程序设计竞赛中说道,我们即将进入第四次工业革命,基础就是大算力。事实上,随着5G、人工智能等信息技术的迅猛发展,算力需求持续增长,但高昂的成本和快速的技术迭代让许多中小企业和个人开发者…

Covalent Network(CXT)通过社区投票将代币迁移并更名为 CXT,以推动人工智能更深层次的创新

专注于人工智能和 Web3 的模块化数据基础设施 Covalent Network(CXT)宣布,其治理提案已通过社区投票并顺利实施,即将原生代币 CQT 迁移为新的 CXT 代币,并部署至新的合约。这一关键性转变标志着 Covalent Network&…

springboot文达办公物资管理系统-计算机毕业设计源码51191

摘要 本文介绍了一种名为"文达办公物资管理系统"的基于JAVA语言、基于Springboot框架和MYSQL数据库开发的管理系统。该系统主要分为管理员和员工用户两个角色,以满足不同用户的需求。 对于管理员用户,系统提供了仪器设备管理、设备借用管理、设…

【大数据技术】换新电脑了,如何快速迁移MySQL到新电脑上(含程序+数据),这样既快速又高效,省去了“各种安装+各种配置+各种迁移数据”带来的麻烦和时间

【大数据技术】换新电脑了,如何快速迁移MySQL到新电脑上(含程序数据 背景步骤总结 背景 很久没有写博文了哦,最近我换了新的笔记本,于是需要在新笔记本电脑上搭建MySQL环境,因为我原电脑上是安装的MySQL解压版,故我想偷偷懒&…

可理解性评估:使用Google Gemini优化语音识别的意义保留

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

实验1 —— 安全策略的练习

实验拓扑图 实验要求 1.DMZ区内的服务器,办公区仅能在办公时间内(9:00-18:00)可以访问,生产区的设备全天可以访问; 2.生产区不允许访问互联网,办公区和游客区允许访问互联网 3.办公区…

动手学Avalonia:基于硅基流动构建一个文生图应用(一)

文生图 文生图,全称“文字生成图像”(Text-to-Image),是一种AI技术,能够根据给定的文本描述生成相应的图像。这种技术利用深度学习模型,如生成对抗网络(GANs)或变换器(T…

【Mac】Charles for Mac(HTTP协议抓包工具)及同类型软件介绍

软件介绍 Charles for Mac 是一款功能强大的网络调试工具,主要用于HTTP代理/HTTP监视器。以下是它的一些主要特点和功能: 1.HTTP代理:Charles 可以作为HTTP代理服务器,允许你查看客户端和服务器之间的所有HTTP和SSL/TLS通信。 …

金航标kinghelm宋仕强在介绍自己公司时说

金航标kinghelm宋仕强在介绍自己公司时说,金航标成立于2007年,成立地点在华强北雷圳大厦803室,后搬到华强北广业大厦24楼CD室,后搬迁到龙华展滔科技大厦C座C809和C817室,现在的办公地址为龙岗区坂田街道百瑞达大厦&…

PageDTO<T>,PageQuery,BeanUtils,CollUtils的封装

一、PageDTO<T> import com.baomidou.mybatisplus.extension.plugins.pagination.Page; import com.fasterxml.jackson.annotation.JsonIgnore; import com.tianji.common.utils.BeanUtils; import com.tianji.common.utils.CollUtils; import com.tianji.common.utils.…

C#中的MD5摘要算法与哈希算法

文章目录 一、哈希算法基础二、MD5 算法原理三、MD5摘要算法四、哈希算法五、C#实现示例MD5算法示例哈希算法示例字符串MD5值对比 六、总结 一、哈希算法基础 哈希算法是一种单向密码体制&#xff0c;它将任意长度的数据转换成固定长度的字符串。这种转换是不可逆的&#xff0…

IDEA中配置代理,解决Codearts Snap登陆不了的问题

问题描述&#xff1a;在mac电脑中的idea中安装了华为的codearts snap插件&#xff0c;一直登录不了&#xff0c;账号是没问题的&#xff0c;后来我怀疑是我的代理有问题&#xff0c;找到IDEA中的代理设置先是有这个问题“You have JVM property "https.proxyHost" se…

千呼新零售2.0分销商城视频介绍

千呼新零售2.0系统是零售行业连锁店一体化收银系统&#xff0c;包括线下收银线上商城连锁店管理ERP管理商品管理供应商管理会员营销等功能为一体&#xff0c;线上线下数据全部打通。 适用于商超、便利店、水果、生鲜、母婴、服装、零食、百货、宠物等连锁店使用。 详细介绍请…

Android初学者书籍推荐

书单 1.《Android应用开发项目式教程》&#xff0c;机械工业出版社&#xff0c;2024年出版2.《第一行代码Android》第二版3.《第一行代码Android》第三版4.《疯狂Android讲义》第四版5.《Android移动应用基础教程&#xff08;Android Studio 第2版&#xff09;》 从学安卓到用安…

【机器学习】支持向量机与主成分分析在机器学习中的应用

文章目录 一、支持向量机概述什么是支持向量机&#xff1f;超平面和支持向量大边距直觉 二、数据预处理与可视化数据集的基本信息导入必要的库加载数据集数据概况数据可视化特征对的散点图矩阵类别分布条形图平均面积与平均光滑度的散点图变量之间的相关性热图 三、模型训练&am…