AIGC发展路径思考:大模型工具化普及迎来新机遇

d6fc43416d7ae17dc94170ad47661432.jpeg

来源:腾讯科技

摘要:当前,AIGC引发社会关注,尤其是大模型和开源模式的推动,让AIGC有望成为AI应用落地的新领域。一方面大模型和开源加速降低AIGC应用门槛并拓展应用范围;另一方面AI与创新的界限进一步模糊,两者融合的趋势愈发明显。本文从AIGC潜在商业模式、知识产权保护、理性看待通用人工智能与技术泡沫、开展技术创新引发的内容安全合规等方面进行论述,并提供可行的意见建议。

关键词:AIGC; 大模型; 开源; 内容安全; 创新; 科技伦理

      0 引言

      2022年8月,在美国科罗拉多州举办的新兴数字艺术家竞赛中,参赛者提交A IGC(AI-Generated Content,以下简称“AIGC“)绘画作品《太空歌剧院》,参赛者没有绘画基础但是却获得了此次比赛“数字艺术/数字修饰照片”类别一等奖,引发多方争议。一方面,批判者认为AI在“学习”了大量前人的作品之后,其创作没有任何情绪和灵魂,难以和人类的艺术创作相提并论。另一方面,支持者认为创作者在一遍遍修改文本内容后,才让AI创作出满意的作画,而且作品有很强的观赏性,AI的创作有其独特价值。AIGC的快速迭代演变,让大模型应用落地有了新领域,也带来对版权和通用人工智能到来的争论,因此有必要从产业发展的角度分析AIGC可能的发展路径,探寻问题解决方案,助力AIGC健康有序发展。

     1 AIGC快速发展主要推动因素

      AIGC是利用人工智能技术来生成内容。2021年之前,AIGC生成的内容主要以文字为主,而新一代模型可以处理的格式包括:文字、语音、代码、图 像、视频、机器人动作等。AIGC被认为是继专业生产内容(PGC,professional-generated content)、用户 生 产 内 容(UGC,User-generated  content)之后的新型内容创作方式,可以在创意、表现力、迭代、传播、个性化等方面,充分发挥技术优势。尤其是视觉信息,一直在网络中有较强的传播力且容易被大众感知,具有跨平台、跨领域、跨人群的优势,天然容易被人记忆和理解。同时视觉信息应用场景广泛,因此生成高质量的图像成为当前AI领域的一个现象级功能。

      1.1 深度学习模型不断迭代为AIGC发展奠定了基础能力

      2021年,Open AI将跨模态深度学习模型CLIP(Contrastive Language-Image Pre-Training,以下简称“CLIP”)进行开源。CLIP模型能够将文字和图像进行关联。例如,将文字“狗”和狗的图像进行关联,并且关联的特征较为丰富,从而推动CLIP模型成为AIGC的重要组成部分。目前,CLIP模型具备两个优势,一方面能够同时进行自然语言理解和计算机视觉分析,实现图像和文本匹配。另一方面为了有足够多标记好的“文本-图像”进行训练,CLIP模型广泛利用互联网上的图片,这些图片一般带有相关文本描述,成为CLIP天然的训练样本。据不完全统计,CLIP模型搜集网络上超过40亿个“文本-图像”训练数据,为后续AIGC尤其是输入文本生成图像/视频应用的落地奠定了基础。

      在此之前 ,“ 对抗生成网络 ”GAN(Generative Adverserial Network, 以下简称“ GAN ”)虽然也是很多AIGC采用的主流框架之一,但GAN具有三个不足:一是对输出结果的控制力较弱,容易产生随机图像;二是生成的图像分别率较低;三是由于GAN需要用判别器来判断生产的图像是否与其他图像属于同一类别,导致生成的图像是对现有作品的模仿,创新性不足。因此依托GAN模型难以创作出新图像,也不能通过文字提示生成新图像。

AIGC相关深度学习模型汇总表

序号

深度学习模型

出现时间

特点

1

GAN(Generative Adversarial Network,)

2014年

1.生成器用来生成图片,判别器用来判断图片质量,两者互相平衡之后得到结果。

2.对输出结果的控制力较弱,容易产生随机图像、分辨率比较低。

2

CLIP(Contrastive Language-Image Pre-Training)

2021年

1.进行自然语言理解和计算机视觉分析。

2.使用已经标注好的"文字-图像"训练数据。一方面对文字进行模型训练。另一方面对图像进行另一个模型的训练,不断调整两个模型内部参数,使得模型分别输出的文字特征值和图像特征值并确认匹配。

3

Diffusion

2022年

1.通过增加噪声破坏训练数据来学习,然后找出如何逆转这种噪声过程以恢复原始图像。

2.经过训练,该模型可以应用这些去噪方法,从随机输入中合成新的“干净”数据。 

      Diffusion扩散化模型出现较晚,但真正实现让文本生成图像的AIGC应用为大众所熟知,也是2022年下半年Stable Diffusion应用的重要推手。Diffusion模型有两个特点,一方面,给图像增加高斯噪声,通过破坏训练数据来学习,然后找出如何逆转这种噪声过程以恢复原始图像,经过训练,该模型可以从随机输入中合成新的数据。另一方面,Stable Diffusion把模型的计算空间从像素空间经过数学变换,降维到可能性空间(Latent Space)的低维空间里,这一转化大幅降低了计算量和计算时间,使得模型训练效率快速提高。Diffusion算法模型的创新与应用推动了AIGC技术的突破性进展。

      总的来看,AIGC在2022年实现快速迭代,主要是在深度学习模型方面有了长足进步。首先CLIP模型基于海量互联网图片进行训练,推动AI绘画模型进行组合创新。其次Diffusion扩散化模型实现算法创新。最后使用潜空间降维的方法来降低Diffusion模型在内存和时间消耗较大的问题。因此,AIGC绘画之所以能够帮助用户进行辅助创作,背后离不开大量深度学习模型的不断完善推动和基础作用。

      1.2 开源策略成为应用开发普及的“必选项”

      在算法模型方面,AIGC的发展离不开开源模式的推动。以深度学习模型CLIP为例,开源模式加速CLIP模型的广泛应用,使之成为当前最为先进的图像分类人工智能,并让更多机器学习从业人员将CLIP模型嫁接到其他AI应用。同时,当前AIGC绘画最热门的应用Stable Diffusion已经正式开源(包括模型权重和代码),通过视觉、语言等多源知识指引扩散模型学习,强化扩散模型对于语义的精确理解,以提升生成图像的可控性和语义的一致性。Stable Diffusion的开源直接引发2022年下半年AIGC引发广泛关注,短短几个月时间内出现大量二次开发,从模型优化到应用拓展,大幅降低用户使用AIGC进行创作的门槛,提升创作效率,并长期位居GitHub热榜第一名。

AIGC绘画应用系统汇总表

序号

名称

创立时间

企业

特点

1

Disco Diffusion

2022年2月

谷歌

开源

2

DALL-E 2

2022年4月

Open AI

(微软投资)

注册制,用完系统赠送点数后需自行购买,生产绘画版权归

3

Make-A-Scene

2022年7月

Meta

不开源

4

Midjourney

2022年4月

Midjourney

社区模式,将应用加载到聊天服务器上

5

Stable Diffusion

2022年7月

Stability.AI

完全开源方式发展

      在训练数据集方面,机器学习离不开大量数据学习。LAION作为全球非营利机器学习研究机构,在2022年3月开放了当前规模最大的开源跨模态数据库LAION-5B,使得近60亿个“文本-图像”可以用来训练,从而进一步加快AI图像生成模型的成熟,帮助研究人员加快推动从文字到图像的生成模型。基于CLIP和LAION的开源模式构建起当前AI图像生成应用的核心。未来,随着模型稳定,开源将成为AIGC成熟的催化剂,源模式有望让相关模型成为海量应用、网络和服务的基础,应用层面的创造力有望迎来拐点。

      2 AIGC为创作领域带来的效率与模式的创新

      创造力曾被认为是少数幸运儿拥有的天赋,但随着深度学习的爆发,协助创作者提升创作效率成为可能。目前来看,AIGC在工业设计、动漫设计、摄影艺术、游戏制作等场景,能够激发设计者创作灵感,提升内容生产效率。

12a47f1b2b557fca7a412bea8929eb8d.jpeg

某AIGC绘图网站上输入Cyberpunk后,搜索到的AIGC生成绘画

      2.1 应用效率提升是当前AIGC落地关键

      在捕捉灵感方面,AIGC协助有经验的创作者捕捉灵感,构建新的创新互动形式。例如在游戏行业,制作人灵感往往难以用文字准确表达,与美术工作人员经常由于沟通产生理解误差。通过AIGC系统可以在设计初期,生成大量草图,在此基础上制作人与美术人员可以更好地理解并确认彼此的需求。同时,创作灵感难以琢磨,可以提前通过AIGC来寻找“感觉”,进一步降低美术创作者大量前期工作和项目成本。例如,制作人可先构建完整的背景故事,之后由AIGC生成系列画作,再由专业的美术人员进行筛选、处理、整合,并将整个故事和画面进一步完善提升。

      在提升效率方面,AIGC的出现将会让创作者拥有一个更加高效的智能创作工具,在内容创作环节进行优化,而非成为竞争对手。例如在极短的项目筹备时间内,AIGC可以大幅提升效率,验证了AI投入到工业化使用的可行性。尤其是对于艺术、影视、广告、游戏、编程等创意行业的从业者来说,可以辅助从业者进行日常工作,并有望创造出更多惊艳的作品。同时,还可以进一步降低成本和效率,为规模化生产构建市场增量。

      2.2 创意与实现步骤分解实现进一步细化分工

      在创意构思阶段,AIGC构建了新的创意完善通路,传统的创作过程中消化、理解以及重复性工作将有望交由AIGC来完成,最终创意过程将变为“创意-AI-创意”的模式。

      在创意实现阶段,创作者和AIGC的关系类似于摄影师和照相机。摄影师构建拍摄思路并进行规划,对相机进行参数配置,但不用了解相机的工作原理与机制,一键生成高质量的内容。同样,创作者构思并进行规划,对AI模型进行参数配置,不需要了解模型的原理,直接点击输出内容即可。创意和实现呈现出分离状态,实现过程变为一种可重复劳动,可以由AIGC来完成,并逐步将成本推向趋近于零。

      3 推动AIGC良性发展的意见和建议

      Gartner预计,到2025年,生成式人工智能将占所有生成数据的10%。根据《Generative AI :A Creative New World》的分析,AIGC有潜力产生数万亿美元的经济价值。AIGC在引发全球关注的同时,知识产权、技术伦理将面临诸多挑战和风险,同时AIGC距离通用人工智能还有较大的差距。

      3.1 从“大模型”到“广应用”,探索可行商业模式

      基于深度学习算法数据越多,模型鲁棒性越强的特点,当前的大模型规 模只增不减,比拼规模已经成为标配。例如,Open AI推出的GPT-3参数已经超过1750亿个。但“数据投喂”并非一种技术路径上的创新,更多的是在工程领域的微调。需要指出的是,模型规模越大,其实越难以在现实场景中落地部署。同时“海量数据”并不等同于“海量高质量数据”,有可能会导致反向效果产生。

      AIGC的发展离不开预训练大模型的不断精进。大模型虽然在很多领域都表现出良好的使用效果,但是这些效果作为展示甚至噱头之后,很难形成良性的商业价值,与大模型的训练成本、基础设施投入更是相差甚远。如何推动“大模型”向“大应用”来转变,正在成为关键的考验。AIGC的破圈以及引发的关注,可以看到大模型商业化的潜力正在清晰化,一方面大模型企业可以根据C端用户实际“按需提供服务”和商业转化。另一方面带动对云计算、云存储的使用量上升。将AIGC从“尝鲜试试看”变成大众频繁使用的需求,再到与具体行业和领域深度结合,依托我国丰富的产业需求和应用场景,有望为大模型商业化和长期价值探索一条新路径。

      3.2 注重知识产权保护,尝试探索新价值创新

      AIGC的飞速发展和商业化应用,对大量依靠版权为主要营收的企业带来冲击。具体来看:一方面,AIGC难以被称为“作者”。根据我国《著作权法》的 规定,作者只能是自然人、法人或非法人组织,很显然AIGC不是被法律所认可的权利主体,因此不能成为著作权的主体。另一方面,AIGC产生的“作品”尚存争议。根据我国《著作权法》和《著作权法实施条例》的规定,作品是指文学、艺术和科学领域内具有独创性并能以某种有形形式复制的智力成果。AIGC的作品具有较强的随机性和算法主导性,能够准确证明AIGC作品侵权的可能性较低。同时,AIGC是否具有独创性目前难以一概而论,个案差异较大。

36c6bb016636bf459f493e5d157bfe09.jpeg

      目前已经有业内人士尝试探索将创作者的“创意”进行量化,甚至定价,有助于打造AIGC的商业模式。这其中“注意力机制”将成为AIGC潜在的量化载体。例如国内有机构专家提出,可以通过计算输入文本中关键词影响的绘画面积和强度,我们就可以量化各个关键词的贡献度。之后根据一次生成费用与艺术家贡献比例,就可以得到创作者生成的价值。最后在与平台按比例分成,就是创作者理论上因贡献创意产生的收益。

      例如某AIGC平台一周内生成数十万张作品,涉及这位创作者关键词的作品有30000张,平均每张贡献度为0.3,每张AIGC绘画成本为0.5元 ,平台分成30%,那么这位创作者本周在该平台的收益为:30000*0.3*0.5*(1-30%)=3150元的收益,未来参与建立AI数据集将有望成为艺术家的新增收益渠道。

      3.3 距离通用人工智能还有较大差距

      当前热门的AIGC系统虽然能够快速生成图像,但是这些系统是否能够真正理解绘画的含义,从而能够根据这些含义进行推理并决策,仍是未知数。一方面,AIGC系统对输入的文本和产生的图像不能完全关联起来。例如,用户对AIGC系统进行测试,输入“骑着马的宇航员”和“骑着宇航员的马”内容时,相关AIGC系统难以准确生成对应的图像。因此,当前的AIGC系统还并没有深刻理解输入文本和输出图像之间的关系。另一方面,AIGC系统难以了解生成图像背后的世界。了解图像背后的世界,是判断AIGC是否具备通用人工智能的关键。目前来看,AIGC系统还难以达到相关的要求。比如,在Stable Diffusion 输入“画一个人,并把拿东西的部分变成紫色”,在接下来的九次测试过程中,只有一次成功完成,但准确性还不高。显然,Stable Diffusion并不理解人的双手是什么。

      知名AI专家发出的调查也印证了同样的观点,有86.1%的人认为当前的AIGC系统对世界理解的并不多,持相同观点的人还包括Stable Diffusion的首席执行官。

      3.4 注重创作伦理引发安全风险

      部分开源的AIGC项目,对生成的图像监管程度较低。一方面,部分数据集系统利用私人用户照片进行AI训练,侵权人像图片进行训练的现象屡禁不止,这些数据集正是AIGC等图片生成模型的训练集之一。例如,部分数据集在网络上抓取了大量病人就医照片进行训练,且没有做任何打码模糊处理,对用户隐私保护堪忧 。另一方面,一些用户利用AIGC生成虚假名人照片等违禁图片,甚至会制作出暴力和性有关的画作,LAION-5B数据库包含色情、种族、恶意等内容,目前海外已经出现基于Stable Diffusion模型的色情图片生成网站。

      由于AI本身还不具备价值判断能力,为此一些平台已经开始进行伦理方面的限制和干预。例如DALL·E2已经开始加强干预,减少性别偏见的产生、防止训练模型生成逼真的个人面孔等,但相关法律法规的空白和AIGC应用研发者本身的不重视将引发对AI创作伦理的担忧。

      4 结束语

      2022年AIGC发展速度惊人,年初还处于技艺生疏阶段,几个月之后就达到专业级别,足以以假乱真。这让花费毕生所学进行创作的从业人员倍感焦虑和紧张。同时,AIGC的迭代速度呈现指数级爆发,这其中深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能,成为AIGC发展的“加速度”。新技术会淘汰适应性差的人,但是那些拥抱变革、适应力强的人,最终 往往能驾驭新技术、发现新机遇,从此获得新收益。新的生产方式会被替代,新的工作岗位、新产业甚至新的艺术表现形式,会从变革中诞生。

      参考文献:

      [1] (英)内森·贝奈奇.2022年剑桥AI全景报告[Z],2022(10):4-6.

      [2] 史海天.从第一性原理出发,分析AI会如何改变视觉内容制作和分发[J].36氪,2022(10)

      [3] 量子位.AIGC/AI生成内容产业展望报告[Z],2022(10)

      [4] 风辞远.AI大模型的白垩纪.脑极体[J],2022(10)

      [5] Rokey.AI时代的巫师与诅咒[J].Rokey的Blog,2022(10)

      原文刊载于《互联网天地》2022年11期,作者单位:腾讯政策发展中心,中国信息通信研究院办公室

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

f05dfe8c7c8a743dcd82afb05cf39590.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481281.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

0基础讲解机器学习算法-朴素贝叶斯分类器

朴素贝叶斯分类器可以说是最经典的基于统计的机器学习模型了。首先,暂且不管贝叶斯是什么意思,朴素这个名字放在分类器中好像有所深意。 一查,发现这个分类器的英文是“Nave Bayes”。Nave(读作“哪义务”)即幼稚的、…

你可以在虚拟世界里过上美好生活吗?

来源:混沌巡洋舰时间来到 2095 年。地球表面满目疮痍,核战争和气候变化引发一场灾难。你只能过着困苦的生活,躲避匪帮,避开地雷。你的主要愿望就是活下去。或者,你也可以将自己的肉体锁存在安保严密的仓库里&#xff0…

web of science,SSCI索引,带你入门!

第一步;选择数据库,一般选择web of science 核心文集 第二步:在更多设置中选择web of science 第三步:点击被引频次后面的数字 第四部:点击查看其他的被引频次计数 根据自己引用的选择次数 注意事项:web of sci…

陶哲轩破解数十年前几何猜想,用反例证明它在高维空间不成立,同行:推翻的方式极尽羞辱...

Pine 萧箫 发自 凹非寺量子位 | 公众号 QbitAI又一个重要数学猜想,被陶哲轩和他的博士后破解了!此前陶哲轩在博客上发了个小预告,就已经有不少人赶来围观:看起来是个大新闻。现在,不少人期待的正式版论文,终…

手把手教你-如何查询中文期刊是否属于核心期刊!

1.进入图书馆、点击数据库检索、在输入cscd中国科学引文数据库(Chinese Science Citation Database,简称CSCD) 2 3 4 5 6点击详细信息进入下面的页面,可判断文档是否属于核心期刊!

《机器学习系列-强填EM算法在理论与工程之间的鸿沟(上)》

小夕曾经问一位做机器学习理论的学姐:“学姐学姐,EM算法是什么呢?”学姐回答:“EM算法啊,就是解决包含隐变量的参数估计问题。”小夕:然后小夕去问一位做工程的学长:“学长学长,EM算…

2022年诺贝尔物理学奖的科学内涵辨识

|作者:葛惟昆(清华大学物理系)本文选自《物理》2022年第12期摘要 2022年的诺贝尔物理学奖,被一些人误解为证明了量子纠缠现象。实际上,包括爱因斯坦本人都承认量子纠缠,关键在于如何诠释。今年诺贝尔物理学奖的价值在于这几位物…

机器学习系列-强填EM算法在理论与工程之间的鸿沟(下)

前言在上一篇文章《机器学习系列-强填EM算法在理论与工程之间的鸿沟(上)》中,小夕用优(恐)雅(怖)的数学理论来向读者解释了EM算法的工作原理。那么从工程角度出发的EM算法又是怎样的呢&#xff…

暑期实习NLP算法岗面经总结

写文章暑期实习NLP算法岗面经总结呜呜哈做一个有思想的码农​关注他488 人赞同了该文章写在前面,从三月份开始找实习到现在正好两个月,这期间大大小小投了竹简智能、阿里、滴滴、美团、腾讯、京东、搜狗、百度、微软亚研几个公司,本着从小公司…

机器学习助力更好理解水的行为

来源:科技日报作者:刘霞为从理论上理解各种物质开辟更多途径科技日报北京12月19日电 (记者刘霞)美国一个研究团队在最新一期《物理评论快报》上刊发论文称,他们借助机器学习技术来理解水在零下100℃的行为。最新研究不…

期望最大化(EM)算法真如用起来那么简单?

声明:本文改编自订阅号“夕小瑶的卖萌屋”中的 《机器学习系列-强填EM算法在理论与工程之间的鸿沟(上)》、《机器学习系列-强填EM算法在理论与工程之间的鸿沟(下)》。前言小夕曾经问一位做机器学习理论的学姐&#xff…

预测更准确,使用机器学习改进化学品的毒性评估

编辑 | 绿萝从命运和毒性的角度来看,人类暴露的化学空间随着化学物质的多样性而不断扩大。欧洲和美国的化学品机构列出了大约 80 万种化学品。对于这些化学品中的大多数,人们对其环境归宿或毒性知之甚少。通过实验填补这些数据空白是不可能的&#xff0c…

如何优雅的追到女神夕小瑶

如果,你不小心迷恋上了小夕… 路人某:“没有如果” 捕获小夕的游戏 如果现实世界中,迷恋上小夕以后,你想捕获小夕。那么发现从上帝视角来看的话,你有下面好多条路几条路达成目标( ̄∇ ̄) 然而你并…

文本相似度-相似度度量

NLP点滴——文本相似度 目录 前言字面距离common lang库相同字符数莱文斯坦距离(编辑距离)定义实现方式Jaro距离定义实现方式应用SimHash定义基本流程相似性度量存储索引实现应用语义相似性背景知识统计语言模型n-gram模型词向量主题模型LSAPLSALDA应用Word2Vec神经网络语言模…

《科学》封面文章AlphaCode的重大意义及其思考

来源:陈德旺科学网博客链接地址:https://blog.sciencenet.cn/blog-57940-1368420.html程序员,虽然戏称程序猿,其实是一个高薪高智商工作,需要对问题的理解力、解决问题的创造性,还需要熟悉掌握编程语言。这…

深度学习可以与大数据分手吗?

小夕:hi,路人~你知道机器学习中数据的维度太高会带来什么问题吗?路人己:此时,如果样本量不足,会容易过拟合啊~小夕:为什么呢?路人己:这还有为什么?小夕&#…

集群化:中国基础研究发展模式的转型方向

来源:《学术前沿》作者:李侠2020年,科技部等五部门联合制定《加强“从0到1”基础研究工作方案》,旨在贯彻落实《国务院关于全面加强基础科学研究的若干意见》,其中明确指出,切实解决我国基础研究缺少“从0到…

各种损失函数比较-带你斩获offer

损失函数(Loss function)是用来估量你模型的预测值 f(x)f(x)值。2. 常用损失函数 常见的损失误差有五种: 1. 铰链损失(Hinge Loss):主要用于支持向量机(SVM) 中; 2. 互…

如果你跟夕小瑶恋爱了...(上)

如果...如果...有一天...你追到了女神夕小瑶...并且与她恋爱了...(想说“没有如果”的路人请自觉狗带( ̄∇ ̄))小夕的生活很规律的哦,小夕每天都会依次经历且仅仅经历以下6件事情:化妆-吃饭-聊天-自习-上课-要…

「返老还童」梦想成真?「NMN教父」争议研究将登陆科学顶刊

来源:机器之心逆转衰老,我们终于有了新方法?一项为时13年的研究最近又有了新的突破,事关人类最在意的问题:衰老理论。12月19日,哈佛大学遗传学教授David Sinclair在社交网络上宣布有关人类衰老研究的最新突…