浅谈一些AIGC赚钱赛道

前段时间,做过一期关于AIGC的分享。

​缘起于近两年看到 DELL E 到 Stable Diffusion 多模态文本可控图像生成的大火,让AIGC概念涨了一大波流量。百度等一些头部大厂,以及关注元宇宙、web3.0领域的很多媒体和公司,都蹭上了这波热点疯狂宣传。

似乎有种,辞旧迎新,新时代到来的赶脚,世界仿佛一夜之间,就要发生翻天覆地的变革。AI生成的炫酷图像,遍布各个媒体在聊,公众号,头条,视频号,抖音,B站,小红书。有的创投机构迅速做出行业研报,组建AIGC论坛,有的UP主,就光发自己用AI作图的过程,粉丝三连就蹭蹭上涨。

作为一位关注AIGC领域五年的技术从业者、创业家,这件事我有不同的看法(也想蹭个热度)。


结论

先说结论:

  1. AIGC是历史的必然节点
  2. AIGC的爆火来源于我们过去对「从量变到质变」发展的AI技术的预期低估,但现在我们对它的商业化可能性却过于高估。
  3. 技术发展的阶段可以缩短,但不可跨越。最终它还是要走「回到量变积累下一个质变」的周期。投资人和创业者都需要十足的耐心。


结论一:为什么AIGC是历史的必然节点

每个时代有每个时代的主题,我们可以简单回顾一下工业革命发展的历程:

  1. 蒸汽机促进了机械化生产,掀起了第一次工业革命。(1780~1870 持续约90年)
  2. 电力应用劳动分工和批量生产的实现,拉开了第二次工业革命的大幕。(1870-1970 持续约100年)
  3. 微电子实现了自动化的IT系统、信息物理系统开创了第三次工业革命。(1970 - 至今)

有人说我们当今属于第四次工业革命开端,当前智能化解决的核心问题也还是降本增效,自动化。

信息化是当前时代的挑战,怎么让信息流更高效地在节点之间传播是核心要解决的问题。信息差的不对称带来了人与人认知上的差异,也孕育出了更多的商业机会。结果就是催生出了很多以信息流为生的新兴产业。粗粒度看,从感官象限去分,从视觉的图像,到听到的声音,到语言的理解,在最近10年内极速扩张。一方面,依赖于IT通信这些基础设施的完善,另一方面,也依赖于搜索推荐这样的智能信息分发平台的精准推送。

进一步说,从最早的内容生产方式来说,整体趋势在向「更多样的内容」,「更高效的生产和传播」发展。多样意味着,不再是只有权威机构才有发声话语权,普通人,创作者也可以生产出有意思的内容。内容不限于传统的媒体,它变得更广域化,碎片化,生活化。载体也从声音图像文本,到视频,甚至3D影像。而高效意味着信息被更精准地推送给那些对内容感兴趣的人消费。于是就有了搜索推荐广告智能化技术的发展。

于是,从「信息化」这一主题去推理,我们可以得出结论。AIGC一定是历史的必然节点。因为它提升了信息生产的效率,让内容的创作变得简单和无门槛。而随着算法技术和芯片算力发展,它的成本会不断降得越来越低。就好比以前的电信小灵通短信,一毛钱一条。到现在发微信几乎不用钱。我们也可以类比做个想象,现在我们创作写文章,做音乐,画画需要很多时间:市场需求的调研,工具的学习上手使用,事后的调整编辑等。时间和精力是最大的成本。而AI辅助创作会让创意变得廉价。因为从创意到原型的实现变得简单了。

然而,商业机会并不在技术本身,而在于依托于技术基础之上的人、社会、生态和模式。技术起到的是一个将红利自动化、规模化的杠杆作用。你用微信发信息并不是因为它免费,而是因为你周边的好友都在使用它,你需要与他们联系不得不用到它。再比如,你会上淘宝买东西并不完全是因为它便宜,而是因为它能节省你自己去店里外面找东西的搜索成本。

这是因为和技术性能挂钩的可以比价。但与人社群体验服务挂钩的却难比价。比如说,同样是语音合成服务,A公司卖60块每小时,B公司卖50块每小时。想使用该服务稍微有点调研能力的人就会了解到,两家公司效果差不多,应该选更便宜的B公司。因为市面上训练的数据差不多,算法没多大差别,最后拼都是数据。然而,现在C公司做了这样一件事,它让语音合成服务几乎免费,但为定制化声音服务收费。比如说,你是一个自媒体人,有大量的录稿需求,现在我们可以定制化你的声音,让你只输入文字,就可以让AI念稿。因为定制化声音,它是专属于你的。因你所在行业,收入水平,需求程度而变化。它是一个带主观色彩的事情,就很难定价。因此当你把声音定制和合成时长打包卖时,就有更大的溢价空间。

那些潜藏在普通人共识之外,但又在大众需求情理之中的信息差才是机会点、盈利点。


结论二:过去太低估,未来却高估

回顾历史你就会知道,技术一直都是指数级复利发展的。

但我们对新事物的预期会遵循一个技术成熟曲线。要不是期盼它更早到来,过于乐观,要不就是认为它到来还要很久,过于悲观。这是因为,我们身为人这一生物属性,需要适应环境,天生喜新厌旧。从后往前看,你就会发现这个规律。现在的最新出的苹果 iphone 14 pro手机,对于5-10年前的你,你会觉得这是魔法,这是科技的奇迹。对于3-5年前,你会极度渴望想要体验。但现在你会大骂苹果越来越没有创新。而这样的感受,和10年前你拿着装载着塞班系统的诺基亚手机一样体验过。人对数码产品的反应,和对新兴技术的感知共用同一套神经系统。

早在1950年前,图灵刚提出AI概念起,到冯诺依曼第一代计算机架构被发明出来,到现今,人工智能技术一直是指数级增长的。而期间历经的资本寒冬,它几经波折,起起伏伏,最终走出了现今的模样。人们对它的展望,设想,需求和预期却一直在变化。好奇它指向更多的可能性。

我们来回顾一下2017年,现有技术,早在5年前,就已经初具雏形。AI画画,自动生成唇形视频,图像高清化,图像编辑,图像风格迁移,wavnet语音合成等。

到了2018年,为降低标注成本,陆续出现了以预训练语言模型为主导模型。先前是图像领域的迁移学习大火,接着bert在自然语言处理领域出圈火遍全球研究界,到现今去噪自编码器成为了一种标准的预训练范式。这一年,神经翻译机,图像分割,视觉推理,高清人脸的生成也得到了进一步发展。

2018年的预训练模型大火,让AI可以使用更多的无标注数据训练更好的模型。这也激发了多模态多任务终身学习/元学习的研究领域兴起。而海量训练数据中混杂着用户隐私问题,被加强了监管,进而促进了支持数据保护的联邦学习的解决方案。

不到3年时间,自监督学习成为了业界的主流,机器视觉和语音领域开始向NLP靠齐。模型变得越来越大。其中里程碑事件便是openai发布了 175 Billion参数的GPT3。与此同时,低资源,知识增强,跨语言,跨模态,进一步得到了发展。因为它们的进展将拓宽人们更大的想象空间。

到2020年,以GAN为主导的深度生成模型渐渐成熟。其难训练,易崩塌的缺陷也随着后来研究者一步步填补上坑。海量的应用得到产品化,最典型的就是图像的可控编辑,换脸换风景换装,变动图这些全都不在话下。但这些大开眼界的纯技术产品并没有支持一家足够大的商业公司崛起。理由很简单。技术不是商业模式。与此同时,基于流和基于扩散的另一波深度生成模型的在这时开始初见萌芽。短短一年后就成为全球吸睛最亮的崽。

2021年,AI最显著的进化里程碑是MAE,视觉终于可以用NLP自然语言同样的架构训练预训练模型,再加上多模态多任务最近2年的发展,催涨了文本图像对齐的研究高潮。文本细粒度可控生成图像有了重要进展。而怎样挖掘大模型的零样本/少样本能力,也催生出了模板工程这一新的细分领域。

简单总结一下这五年的趋势:

  1. 模型需要越来越少的人类世界知识干预
    1. 更少的人工标注数据
    2. 更少的任务、模态领域知识依赖
  2. 性能越来越好,从感知到认知的发展
  3. 模型和参数越来越大,预训练成本越来越高
  4. 呈现出多模态,多任务大统一收敛的趋势
  5. 技术上持续突破,产品创新和商业模式创新还未跟上

2022年今年,最近一年,究竟发生了什么。首先是扩散生成模型,它在数学上更直观优美,比GAN更好训练,生成多样性上有更大的潜力和展望空间。因此被广泛使用,大量涌现。

而大模型的训练发布,相比于过去每一年都来得更频繁,更具颠覆性。从最近半年来看,超出了过去一年的进展。

其中最显著的是文本生成图像模型。它成为当今媒体热议的点。得益于clip训练的图像文本对齐模型,AI可以很轻松地捕获语义中的物品描述风格空间和颜色信息,进行内容的生成创作。

紧接着是deepmind发布的通用型人工智能Goto,它验证了,AI可以在完全不同的领域的数据,在同一个神经网络训练后,同一套参数,各自的任务都能有很好的表现。这也是多模态收敛的重要里程碑。

把AIGC创作最终推向平民化的是stability.ai推出的stable diffusion。打着AI by the people, for the people的slogen,开源免费了比openai更好的 DALL·E 2。每个人都可以在自己带GPU的个人电脑上跑动它。打破了人们对遥不可及的大模型的刻板印象。

提两个商业化落地的场景

AI作画对艺术界产生了巨大冲击,也催生出了AI辅助创作这一新兴领域的发展。最典型的例子是工业设计。现在你可以把任意元素和鞋子混合,激发你新的设计灵感。

另一个场景是AI的动捕。你可以实时地通过图像动捕自己的表情动作去操纵任意人物(这对直播视频会议,元宇宙场景极其有用)。但技术本身还是作为提升效率带来便利的工具。它可以吸引你过来体验,赚点买卖。但它单独的售卖会陷入之前提到的比价困境。就好比stable diffusion 之于 DALL·E 2。只要有人把你的技术免费开源出来,你的买卖就一文不值。技术专利的门槛只有在高精尖行业(比如医药、芯片)才比较彰显它核心价值。在产品应用层面,它难做大。

因此在AIGC技术热潮兴起的今天,我们尤其要保持冷静和清醒。我们需要提前思考好,我是想做卖短信的生意,还是想做免费的微信。


结论三:十足的耐心

AIGC 对于我们是什么,以及未来会变成什么?

AI对数字化进程的贡献可以总结为三大能力:

  1. 孪生能力。将现实物理世界中数字世界复刻一遍
    1. 照相机,留声机,录影机,打字机,midi电子琴
    2. 数码相机,录音机,PC word打字,midi虚拟乐器
    3. 手机(包含照相录像,录音,打字,社交,付款,等近乎一切功能)
    4. 虚拟数字人→基于你录像和语音,生成你没说过的内容和画面,语义理解,ASR转录等
  2. 编辑能力。将数字世界的化身数据进行修改编辑
    1. 音视频的剪辑,图像的美化,DAW 宿主软件对音乐的编辑
    2. 图像风格迁移,AI图像编辑
    3. 个性化可控定制
  3. 创作能力
    1. 模仿学习,自动作画,AI文案,AI编曲,AI作曲,自动音乐的生成

最近几周,我下载了近200个app,体验总结出了一些商业化场景。更详细的调研和总结会另开一期细讲。

你会看到,他们其中赚钱盈利的,几乎没有一个是纯卖技术起家的。更多的是生态运营,面向切实的用户需求,解决实际问题的产品。以新奇体验为主的应用可能爆款(概率也不高),但较难留住用户。

关于未来的变化,AIGC会存在很长一段时间的基于prompt的新的辅助创作模式,和新的收益模式。比如卖算力,社区交易,卖创意灵感。对模型期望变得更小,性能更好,效果更逼真、自然、贴近人的理解,更有沉浸感。AI慢慢可以生成更复杂的3D场景,动作序列和故事脚本。多模态之间的语义联系会对齐得更好,更加可控。

参考了量子位发布的《AIGC深度产业报告》,比较有前景的方向是,现有需求成熟度高,但技术成熟度还差1-2年的领域。我国目前还未真正进入AIGC阶段。即便细分赛道出现一些个别优秀的公司和研究机构,但还未进入大规模验证和体系化发展的阶段。场景上,内容领域的需求也较为饱和,降本增效不迫切。细分看,虚拟人是产业的中短期增长动力,玩家需要容错率高专业度和创意要求有限的场景。长期去看,AIGC还缺乏更加清晰和明确消费落地的场景,比如实时互动和高度个性化生成。


结尾

技术还未成熟的时候,创始人会告诉消费者和投资人,我们需要耐心,等技术做成熟。比如VR/AR领域的发展就是这样。创始人说的对,但实际人们对它的预期和反应都是反过来——毫无耐心可言。因为市场就是急功近利的。

历史的经验告诉我们,越是3-5年内没成熟的技术,我们就越应该不报期望,加大投入抢占赛道。为了避免我们未来感到失望,而对它视而不见,是遵循了技术成熟曲线,但忽略了技术一直在进步的事实。而等到它成熟了,再兴起的那一波热潮,大概率是泡沫、一地鸡毛。

我们大部分人其实都无法赚认知以外的钱。为什么?因为头雁只有一只。等到一个技术的兴起,再入场,大概率就是晚了。不等你时间反应,很快会有人把可能的商业机会测试跑通。跑通了,你处于竞争劣势,没跑通,大概率你也不行。而你又是急功近利而选择进场的,你又没有耐心。

因此,越是资本新概念兴起的时候,我们越需要警惕和保持耐心,做好量变的执行准备,为下一次质变做准备。毕竟想象力等同新的可能性,不等同于真实的需求。

 

但由于AIGC刚刚爆火,网上相关内容的文章博客五花八门、良莠不齐。要么杂乱、零散、碎片化,看着看着就衔接不上了,要么内容质量太浅,学不到干货。

这里分享给大家一份Adobe大神整理的《AIGC全家桶学习笔记》,相信大家会对AIGC有着更深入、更系统的理解。

有需要的朋友,可以点击下方免费领取!

 

AIGC所有方向的学习路线思维导图

这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。如果下面这个学习路线能帮助大家将AI利用到自身工作上去,那么我的使命也就完成了: 在这里插入图片描述

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/847444.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

el-table动态配置显示表头

在实际工作中,会遇到动态配置e-table表头的情况,如下方法可以实现: // 要展示的列 column: [{prop: name, name: 名称 }, {prop: age, name: 年龄 }, {prop: sex, name: 性别 }, {prop: address, name: 地址 }, {prop: city, name: 城市 }]…

生活旅游数据恢复:全国违章查询

【步骤一:备份数据】 在开始数据恢复之前,首先要做的是备份现有的数据。虽然这一步不直接涉及到数据恢复,但万一在恢复过程中出现问题,您还可以回滚到备份,以避免数据丢失。 打开全国违章查询app。在主界面上找到并点…

量化投资分析平台 迅投 QMT(二)

量化投资分析平台 迅投 QMT [迅投 QMT](https://www.xuntou.net/?user_code7NYs7O)我目前在使用如何获取数据上代码历史帖子 迅投 QMT 我目前在使用 两个月前(2024年4月)迅投和CQF有一个互动的活动,进行了平台的一个网上路演,刚…

数据隐私重塑:Web3时代的隐私保护创新

随着数字化时代的不断深入,数据隐私保护已经成为了人们越来越关注的焦点之一。而在这个数字化时代的新篇章中,Web3技术作为下一代互联网的代表,正在为数据隐私保护带来全新的创新和可能性。本文将深入探讨数据隐私的重要性,Web3时…

WSDM 2023 推荐系统相关论文整理(二)

WSDM 2023的论文录用结果已出,推荐系统相关的论文方向包含序列推荐,点击率估计等领域,涵盖图学习,对比学习,因果推断,知识蒸馏等技术,累计包含近四十篇论文,下文列举了部分论文的标题…

STM32H750外设ADC之外部触发和注入管理

目录 概述 1 外部触发转换和触发极性 1.1 外部触发条件 1.2 忽略硬件触发条件 1.3 触发框图 1.4 常规通道的外部触发 1.5 注入通道的外部触发 2 注入通道管理 2.1 触发注入模式 2.2 自动注入模式 2.3 注入转换延迟 概述 本文主要介绍STM32H750外设ADC之外部触发和注…

Win10 TiKV单机单节点Docker部署测试

1. 环境 环境:Windows10、WSL2、Ubuntu20.04、Docker Desktop目标:单节点单机部署,测试用 2. 前置操作 docker pull pingcap/tikv:latest docker pull pingcap/pd:latestmkdir -p /mnt/tikv/pd mkdir -p /mnt/tikv/tikvip a 命令查看虚拟…

PROFINET转CANOPEN(WL-ABC3033)连接台达伺服驱动器ASDA-B3

在工业自动化领域这片广阔天地中,通信协议的转换犹如一道横亘在工程师们面前的难题。特别是在将众多采用不同通信协议的设备汇聚一堂,共同协作完成任务的场景中,如何确保数据如丝般顺滑地穿梭于各个节点之间,确保每台设备都能心领…

智慧社区信息化建设整体解决方案(PPT原件获取及软件各类建设方案)

智慧社区信息化系统建设要点可以归纳为以下几个方面: 一、社区基础设施建设 网络设施:建设高速网、城域网、校内网等网络,以满足社区信息传输和管理所需。信息终端设备:建设各种类型的智能终端设备,包括智能手机、智能…

【GD32F303红枫派使用手册】第八节 TIMER-RGB彩灯实验

8.1 实验内容 通过本实验主要学习以下内容: RGB彩灯控制原理 TIMER PWM输出原理 8.2 实验原理 本例程中使用的RGB彩灯采用共阳极驱动方式,使用三路PWM进行驱动,对应引脚输出低电平的时候对应RGB灯珠点亮,调节不同路的PWM占空…

FPGA新起点V1开发板(八-语法篇)——状态机

文章目录 一、两个状态机模型二、状态机设计(四段论)2.1 状态空间定义2.2 状态跳转(时序逻辑)2.3 下个状态判断(组合逻辑)2.4 各个状态下的动作2.5 三段式 一、两个状态机模型 二、状态机设计(四…

用户投诉对旅行社复购率有什么影响?该如何分析投诉数据?

随着在线旅游市场的不断扩大,旅游平台的用户基数和交易量持续增长,用户投诉作为服务质量的反馈机制,其重要性日益凸显。用户投诉不仅反映了旅游服务中存在的问题,也是推动平台中的旅行社改进服务、提升用户体验的重要动力。然而&a…

接口自动化-预期值和实际值怎么写?

测试类当中 怎么做接口自动化,返回值校验,就是需要返回值的预期值和实际值进行对比 实际值如下 怎么拿到预期值$.msg?用正则表达式-提取值 建新的类-来编写用正则表达式拿到预期值 源码pattern 使用的compile的方法,传入的是字符串正则表…

短剧cps系统搭建开发,热门短剧推广分销系统。短剧分销是怎么操作的?

目录 前言: 二、短剧是怎么推广分销的? 二、 短剧分销系统有什么功能? 三、怎么搭建? 总结: 前言: 短剧分销项目目前的现状是多元化且充满活力的。随着短剧市场的快速发展和观众接受度的提高&#xff0…

大功率LED照明芯片OC6781输入5V~36V,PWM升压型LED恒流驱动器

概述 OC6781是一款高效率、高精度的升压型LED恒流驱动控制芯片。OC6781内置高精度误差放大器,振荡器,恒流驱动电路等,特别适合大功率、多个高亮度LED灯串恒流驱动。OC6781采用固定频率的PWM控制方式,工作频率可通过外部电阻进行设…

MySQL的组成与三种log

MySQL由几块组成 连接器分析器优化器执行器 MySQL的三大log blog 作用&#xff1a; 用于主从同步与数据恢复 记录内容&#xff1a; 已经完成的 DML(数据操作语句)&#xff0c;主要是用于数据备份 redolog<重试日志> 作用&#xff1a; 崩溃恢复&#xff0c;用于事…

跟着AI学AI_02, 时域频域和MFCC

AI&#xff1a;ChatGPT4o 时域和频域是信号处理中的两个基本概念&#xff0c;用于描述信号的不同特性。 时域 时域&#xff08;Time Domain&#xff09; 是对信号随时间变化的描述。在时域中&#xff0c;信号是作为时间的函数来表示的。 时域表示&#xff1a;例如&#xff0…

双指针解题

验证回文数&#xff08;验证回文数-CSDN博客&#xff09;和判断在子序列&#xff08;判断子序列-CSDN博客&#xff09;已经在之前进行了计算&#xff0c;今天有三个新的双指针问题&#xff1a; 两数之和II—输入有序数组 给你一个下标从 1 开始的整数数组 numbers &#xff0…

堆的认识和堆的操作

一.堆的认识: ① 也就是说它取出的顺序是需要搜索的,查找特定性质。 ② 数组:总是插入尾部(1),查找(n)移动元素删除特性(n) 链表:头插或尾插(1),查找(n)删特性(1) 所以为什么要调整顺序?就是为了查找特性方便。 有序数组:找到合适位置(n)移动元素插入(n),删除最…

HMM地图匹配算法库Barefoot环境搭建

1.引入gps路径匹配开源项目barefoot 克隆仓库 git clone https://github.com/bmwcarit/barefoot.git打开项目执行mvn命令将项目打包到maven仓库 mvn install -DskipTests在自己的maven项目中引入barefoot依赖 <dependency><groupId>com.bmw-carit</groupId&g…