前段时间,做过一期关于AIGC的分享。
缘起于近两年看到 DELL E 到 Stable Diffusion 多模态文本可控图像生成的大火,让AIGC概念涨了一大波流量。百度等一些头部大厂,以及关注元宇宙、web3.0领域的很多媒体和公司,都蹭上了这波热点疯狂宣传。
似乎有种,辞旧迎新,新时代到来的赶脚,世界仿佛一夜之间,就要发生翻天覆地的变革。AI生成的炫酷图像,遍布各个媒体在聊,公众号,头条,视频号,抖音,B站,小红书。有的创投机构迅速做出行业研报,组建AIGC论坛,有的UP主,就光发自己用AI作图的过程,粉丝三连就蹭蹭上涨。
作为一位关注AIGC领域五年的技术从业者、创业家,这件事我有不同的看法(也想蹭个热度)。
结论
先说结论:
- AIGC是历史的必然节点
- AIGC的爆火来源于我们过去对「从量变到质变」发展的AI技术的预期低估,但现在我们对它的商业化可能性却过于高估。
- 技术发展的阶段可以缩短,但不可跨越。最终它还是要走「回到量变积累下一个质变」的周期。投资人和创业者都需要十足的耐心。
结论一:为什么AIGC是历史的必然节点
每个时代有每个时代的主题,我们可以简单回顾一下工业革命发展的历程:
- 蒸汽机促进了机械化生产,掀起了第一次工业革命。(1780~1870 持续约90年)
- 电力应用劳动分工和批量生产的实现,拉开了第二次工业革命的大幕。(1870-1970 持续约100年)
- 微电子实现了自动化的IT系统、信息物理系统开创了第三次工业革命。(1970 - 至今)
有人说我们当今属于第四次工业革命开端,当前智能化解决的核心问题也还是降本增效,自动化。
信息化是当前时代的挑战,怎么让信息流更高效地在节点之间传播是核心要解决的问题。信息差的不对称带来了人与人认知上的差异,也孕育出了更多的商业机会。结果就是催生出了很多以信息流为生的新兴产业。粗粒度看,从感官象限去分,从视觉的图像,到听到的声音,到语言的理解,在最近10年内极速扩张。一方面,依赖于IT通信这些基础设施的完善,另一方面,也依赖于搜索推荐这样的智能信息分发平台的精准推送。
进一步说,从最早的内容生产方式来说,整体趋势在向「更多样的内容」,「更高效的生产和传播」发展。多样意味着,不再是只有权威机构才有发声话语权,普通人,创作者也可以生产出有意思的内容。内容不限于传统的媒体,它变得更广域化,碎片化,生活化。载体也从声音图像文本,到视频,甚至3D影像。而高效意味着信息被更精准地推送给那些对内容感兴趣的人消费。于是就有了搜索推荐广告智能化技术的发展。
于是,从「信息化」这一主题去推理,我们可以得出结论。AIGC一定是历史的必然节点。因为它提升了信息生产的效率,让内容的创作变得简单和无门槛。而随着算法技术和芯片算力发展,它的成本会不断降得越来越低。就好比以前的电信小灵通短信,一毛钱一条。到现在发微信几乎不用钱。我们也可以类比做个想象,现在我们创作写文章,做音乐,画画需要很多时间:市场需求的调研,工具的学习上手使用,事后的调整编辑等。时间和精力是最大的成本。而AI辅助创作会让创意变得廉价。因为从创意到原型的实现变得简单了。
然而,商业机会并不在技术本身,而在于依托于技术基础之上的人、社会、生态和模式。技术起到的是一个将红利自动化、规模化的杠杆作用。你用微信发信息并不是因为它免费,而是因为你周边的好友都在使用它,你需要与他们联系不得不用到它。再比如,你会上淘宝买东西并不完全是因为它便宜,而是因为它能节省你自己去店里外面找东西的搜索成本。
这是因为和技术性能挂钩的可以比价。但与人社群体验服务挂钩的却难比价。比如说,同样是语音合成服务,A公司卖60块每小时,B公司卖50块每小时。想使用该服务稍微有点调研能力的人就会了解到,两家公司效果差不多,应该选更便宜的B公司。因为市面上训练的数据差不多,算法没多大差别,最后拼都是数据。然而,现在C公司做了这样一件事,它让语音合成服务几乎免费,但为定制化声音服务收费。比如说,你是一个自媒体人,有大量的录稿需求,现在我们可以定制化你的声音,让你只输入文字,就可以让AI念稿。因为定制化声音,它是专属于你的。因你所在行业,收入水平,需求程度而变化。它是一个带主观色彩的事情,就很难定价。因此当你把声音定制和合成时长打包卖时,就有更大的溢价空间。
那些潜藏在普通人共识之外,但又在大众需求情理之中的信息差才是机会点、盈利点。
结论二:过去太低估,未来却高估
回顾历史你就会知道,技术一直都是指数级复利发展的。
但我们对新事物的预期会遵循一个技术成熟曲线。要不是期盼它更早到来,过于乐观,要不就是认为它到来还要很久,过于悲观。这是因为,我们身为人这一生物属性,需要适应环境,天生喜新厌旧。从后往前看,你就会发现这个规律。现在的最新出的苹果 iphone 14 pro手机,对于5-10年前的你,你会觉得这是魔法,这是科技的奇迹。对于3-5年前,你会极度渴望想要体验。但现在你会大骂苹果越来越没有创新。而这样的感受,和10年前你拿着装载着塞班系统的诺基亚手机一样体验过。人对数码产品的反应,和对新兴技术的感知共用同一套神经系统。
早在1950年前,图灵刚提出AI概念起,到冯诺依曼第一代计算机架构被发明出来,到现今,人工智能技术一直是指数级增长的。而期间历经的资本寒冬,它几经波折,起起伏伏,最终走出了现今的模样。人们对它的展望,设想,需求和预期却一直在变化。好奇它指向更多的可能性。
我们来回顾一下2017年,现有技术,早在5年前,就已经初具雏形。AI画画,自动生成唇形视频,图像高清化,图像编辑,图像风格迁移,wavnet语音合成等。
到了2018年,为降低标注成本,陆续出现了以预训练语言模型为主导模型。先前是图像领域的迁移学习大火,接着bert在自然语言处理领域出圈火遍全球研究界,到现今去噪自编码器成为了一种标准的预训练范式。这一年,神经翻译机,图像分割,视觉推理,高清人脸的生成也得到了进一步发展。
2018年的预训练模型大火,让AI可以使用更多的无标注数据训练更好的模型。这也激发了多模态多任务终身学习/元学习的研究领域兴起。而海量训练数据中混杂着用户隐私问题,被加强了监管,进而促进了支持数据保护的联邦学习的解决方案。
不到3年时间,自监督学习成为了业界的主流,机器视觉和语音领域开始向NLP靠齐。模型变得越来越大。其中里程碑事件便是openai发布了 175 Billion参数的GPT3。与此同时,低资源,知识增强,跨语言,跨模态,进一步得到了发展。因为它们的进展将拓宽人们更大的想象空间。
到2020年,以GAN为主导的深度生成模型渐渐成熟。其难训练,易崩塌的缺陷也随着后来研究者一步步填补上坑。海量的应用得到产品化,最典型的就是图像的可控编辑,换脸换风景换装,变动图这些全都不在话下。但这些大开眼界的纯技术产品并没有支持一家足够大的商业公司崛起。理由很简单。技术不是商业模式。与此同时,基于流和基于扩散的另一波深度生成模型的在这时开始初见萌芽。短短一年后就成为全球吸睛最亮的崽。
2021年,AI最显著的进化里程碑是MAE,视觉终于可以用NLP自然语言同样的架构训练预训练模型,再加上多模态多任务最近2年的发展,催涨了文本图像对齐的研究高潮。文本细粒度可控生成图像有了重要进展。而怎样挖掘大模型的零样本/少样本能力,也催生出了模板工程这一新的细分领域。
简单总结一下这五年的趋势:
- 模型需要越来越少的人类世界知识干预
- 更少的人工标注数据
- 更少的任务、模态领域知识依赖
- 性能越来越好,从感知到认知的发展
- 模型和参数越来越大,预训练成本越来越高
- 呈现出多模态,多任务大统一收敛的趋势
- 技术上持续突破,产品创新和商业模式创新还未跟上
2022年今年,最近一年,究竟发生了什么。首先是扩散生成模型,它在数学上更直观优美,比GAN更好训练,生成多样性上有更大的潜力和展望空间。因此被广泛使用,大量涌现。
而大模型的训练发布,相比于过去每一年都来得更频繁,更具颠覆性。从最近半年来看,超出了过去一年的进展。
其中最显著的是文本生成图像模型。它成为当今媒体热议的点。得益于clip训练的图像文本对齐模型,AI可以很轻松地捕获语义中的物品描述风格空间和颜色信息,进行内容的生成创作。
紧接着是deepmind发布的通用型人工智能Goto,它验证了,AI可以在完全不同的领域的数据,在同一个神经网络训练后,同一套参数,各自的任务都能有很好的表现。这也是多模态收敛的重要里程碑。
把AIGC创作最终推向平民化的是stability.ai推出的stable diffusion。打着AI by the people, for the people的slogen,开源免费了比openai更好的 DALL·E 2。每个人都可以在自己带GPU的个人电脑上跑动它。打破了人们对遥不可及的大模型的刻板印象。
提两个商业化落地的场景
AI作画对艺术界产生了巨大冲击,也催生出了AI辅助创作这一新兴领域的发展。最典型的例子是工业设计。现在你可以把任意元素和鞋子混合,激发你新的设计灵感。
另一个场景是AI的动捕。你可以实时地通过图像动捕自己的表情动作去操纵任意人物(这对直播视频会议,元宇宙场景极其有用)。但技术本身还是作为提升效率带来便利的工具。它可以吸引你过来体验,赚点买卖。但它单独的售卖会陷入之前提到的比价困境。就好比stable diffusion 之于 DALL·E 2。只要有人把你的技术免费开源出来,你的买卖就一文不值。技术专利的门槛只有在高精尖行业(比如医药、芯片)才比较彰显它核心价值。在产品应用层面,它难做大。
因此在AIGC技术热潮兴起的今天,我们尤其要保持冷静和清醒。我们需要提前思考好,我是想做卖短信的生意,还是想做免费的微信。
结论三:十足的耐心
AIGC 对于我们是什么,以及未来会变成什么?
AI对数字化进程的贡献可以总结为三大能力:
- 孪生能力。将现实物理世界中数字世界复刻一遍
- 照相机,留声机,录影机,打字机,midi电子琴
- 数码相机,录音机,PC word打字,midi虚拟乐器
- 手机(包含照相录像,录音,打字,社交,付款,等近乎一切功能)
- 虚拟数字人→基于你录像和语音,生成你没说过的内容和画面,语义理解,ASR转录等
- 编辑能力。将数字世界的化身数据进行修改编辑
- 音视频的剪辑,图像的美化,DAW 宿主软件对音乐的编辑
- 图像风格迁移,AI图像编辑
- 个性化可控定制
- 创作能力
- 模仿学习,自动作画,AI文案,AI编曲,AI作曲,自动音乐的生成
最近几周,我下载了近200个app,体验总结出了一些商业化场景。更详细的调研和总结会另开一期细讲。
你会看到,他们其中赚钱盈利的,几乎没有一个是纯卖技术起家的。更多的是生态运营,面向切实的用户需求,解决实际问题的产品。以新奇体验为主的应用可能爆款(概率也不高),但较难留住用户。
关于未来的变化,AIGC会存在很长一段时间的基于prompt的新的辅助创作模式,和新的收益模式。比如卖算力,社区交易,卖创意灵感。对模型期望变得更小,性能更好,效果更逼真、自然、贴近人的理解,更有沉浸感。AI慢慢可以生成更复杂的3D场景,动作序列和故事脚本。多模态之间的语义联系会对齐得更好,更加可控。
参考了量子位发布的《AIGC深度产业报告》,比较有前景的方向是,现有需求成熟度高,但技术成熟度还差1-2年的领域。我国目前还未真正进入AIGC阶段。即便细分赛道出现一些个别优秀的公司和研究机构,但还未进入大规模验证和体系化发展的阶段。场景上,内容领域的需求也较为饱和,降本增效不迫切。细分看,虚拟人是产业的中短期增长动力,玩家需要容错率高专业度和创意要求有限的场景。长期去看,AIGC还缺乏更加清晰和明确消费落地的场景,比如实时互动和高度个性化生成。
结尾
技术还未成熟的时候,创始人会告诉消费者和投资人,我们需要耐心,等技术做成熟。比如VR/AR领域的发展就是这样。创始人说的对,但实际人们对它的预期和反应都是反过来——毫无耐心可言。因为市场就是急功近利的。
历史的经验告诉我们,越是3-5年内没成熟的技术,我们就越应该不报期望,加大投入抢占赛道。为了避免我们未来感到失望,而对它视而不见,是遵循了技术成熟曲线,但忽略了技术一直在进步的事实。而等到它成熟了,再兴起的那一波热潮,大概率是泡沫、一地鸡毛。
我们大部分人其实都无法赚认知以外的钱。为什么?因为头雁只有一只。等到一个技术的兴起,再入场,大概率就是晚了。不等你时间反应,很快会有人把可能的商业机会测试跑通。跑通了,你处于竞争劣势,没跑通,大概率你也不行。而你又是急功近利而选择进场的,你又没有耐心。
因此,越是资本新概念兴起的时候,我们越需要警惕和保持耐心,做好量变的执行准备,为下一次质变做准备。毕竟想象力等同新的可能性,不等同于真实的需求。
但由于AIGC刚刚爆火,网上相关内容的文章博客五花八门、良莠不齐。要么杂乱、零散、碎片化,看着看着就衔接不上了,要么内容质量太浅,学不到干货。
这里分享给大家一份Adobe大神整理的《AIGC全家桶学习笔记》,相信大家会对AIGC有着更深入、更系统的理解。
有需要的朋友,可以点击下方免费领取!
AIGC所有方向的学习路线思维导图
这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。如果下面这个学习路线能帮助大家将AI利用到自身工作上去,那么我的使命也就完成了: