AI大模型相关产品的数据飞轮如何建设?

1、背景

数据飞轮,是今年大模型带火的一个典型词汇,通过客户在应用程序中输入的提示词这样的数据反馈,使大模型快速迭代。简单说:好的产品 -> 更多的用户数据 -> 更好的模型质量 -> 更好的产品就进入了一个正向循环。一旦我们搭建起了这样的数据飞轮,就能在竞争中和对手拉开距离。

图片来自网络

2、案例&观点

2.1 Midjourney的数据飞轮产品设计

Midjourney是一款AI绘画工具,在Midjourney里面,简单到只要打几个字,就可以出来质量非常高的照片。

Midjourney产品设计:以用户社区作为入门教程、给用户即时反馈以及搭建数据飞轮以迭代模型,值得当前的AI应用构建借鉴和参考。

很多人都觉得Midjourney要比开源的Stable Diffusion好上不少,这背后有一个很重要的因素,就是它拥有更多高质量的标注数据。你可能要问了,Midjourney 只有不到 20 个人的团队,哪里来的资源去标注数据呢?答案就在 Midjourney 的产品设计流程里

当前的AI内容生成类型的产品,普遍存在的一个问题?用户其实不知道该怎么玩这个产品?这个“不知道怎么玩儿”,不是说不知道怎么生成一张图片,而是说不知道什么样的提示语值得一试,可以画出什么样的场景。因为大部分人和你我一样,不太懂得绘画,也缺少一些想象力。这样,很容易随便画了两三张图片之后,就放弃使用 Midjourney 这样的产品了。

下面是Midjourney的几点值得参考的几点设计:

设计1:默认进入某一个新用户聊天群,可以看到其他用户不用的使用场景。这样就可以简单的复制粘贴提示语,然后修改几个单词,就可以复刻其他人相同风格的画作了。(老玩家也有对应的方式)

设计2:提供优秀的实践案例,通过“共享”用户创建的内容这样的方式,Midjourney 很容易地让整个社区成为了教会新用户使用产品的通道。而不需要自己费劲费力地去写教程,或者提供大量的新手引导功能。ChatGPT缺少这样的能力,于是就有了 ShareGPT、FlowGPT 这样分享 ChatGPT 对话内容以及特定、有趣的提示语网站了。

设计3:面对响应速度慢问题(硬件和计算瓶颈)尽可能让用户能在等待过程中可以看到这个任务是有进展的,也就是说图片不是一下子从0到100展现出来,而是逐步展现,如下两张图表示从进度从31%->62%的加载过程,减少用户的等待焦虑。和ChatGPT流式输出的效果是类似的,图片或视频的处理可能会更复杂。

设计4:Midjourney针对用户的输入,并不是每次只生成一张图片,而是生成了四张不同的图片因为Diffusion算法生成的图片可控性性比较差,一次性拿到用户满意的图片概率比较低。一次性提供四张图片,让用户可以从四张里面挑一张,显然成功率就高多了。

搭建数据飞轮,快速迭代模型

Midjourney拥有更多高质量的标注数据,而这些数据绝大部分来自用户的标注或反馈数据。比如每个生成的图片下面有个Favourite按钮(代表喜欢和收藏),用户点击这个按钮的时候。Midjourney的团队就获得了一个由用户标注好的优质图片数据,也就是用户输入的提示词和对应的配对组合。

想象是美好的,实际用户主动点击Favourite按钮的会比较少,毕竟不是朋友圈类型的社交产品。Midjourney其实还有一些“隐形”的操作,也帮助用户标注了图片质量的好坏。

Midjourney 对于任何一个提示语,都会生成四张图片。除了直接从四张图片里面选一张放大之外,你还可以有另外两个选择。第一个是你可能对四张图片都不满意,那么你可以直接点击图片下面的“刷新”按钮,重新生成四张图片。或者,你对其中一张图片的整体观感还是不错的,但是还不够满意。你同样可以点击四格图下方的 V1-V4 按钮中的一个,以四格图里面的一张为基础,再生成 4 张相似的图片。而对于已经放大了的高清大图,用户同样可以点击 Make Variation 的按钮,来重新生成 4 张图片,再让用户选择。这两个动作里,用户尽管没有标记说哪一张图片是好的。但是其实已经告诉了我们,哪些图片他并不喜欢,以及 4 张图片里哪一张更接近他心目中理想的图片。

Midjourney 就可以根据用户前后的一系列操作日志,来筛选出那些用户最终选择的图片。如果用户做了大量刷新重新生成或者生成变体的操作,并且最后选定了一张图片放大,那么这张图片大概率是一张用户满意的高清大图,我们不需要依赖用户点击 Favorite 按钮这一动作。

这样的“隐式”反馈,在搜索、推荐等应用场景下很常见,比如在搜索场景,用户输入了搜索词却没有点击任何链接又重新输入了新的搜索词,那么大概率表示用户对搜索结果不满意。在短视频的推荐里面,尽管用户没有点赞或收藏,但是用户看完了整个视频,大概率表示用户对视频是感兴趣的。

对于大模型AIGC应用,这样“隐式”反馈信息的使用也非常重要。用户反馈越多,数据的质量就越高,高质量的数据,能让我们训练出更好的模型,而更好的模型,就意味着产品能够生成更高质量的内容,吸引更多的用户。这样,好的产品 -> 更多的用户数据 -> 更好的模型质量 -> 更好的产品就进入了一个正向循环。一旦我们搭建起了这样的数据飞轮,就能在竞争中和对手拉开距离。

用户社区、及时反馈以及建立数据飞轮是 AIGC 类应用必不可少的组成部分。

2.2 火山引擎:大模型时代,「数据飞轮」怎么做

数据飞轮,是今年大模型带火的一个典型词汇,通过客户在应用程序中输入的提示词这样的数据反馈,使大模型快速迭代。今年初,数据飞轮也曾一度被视为 OpenAI 最重要的先发优势。

问题1:「用户都看重数据资产,不愿意把数据拿出来,模型厂商帮助客户训好模型,做本地部署,做完了『净身出户』,数据飞轮很难建立起来」

火山引擎总裁谭待观点:

  • 大模型的数据飞轮问题首先要合规,其次,很多企业愿意与模型厂商共创,从而可以让大模型厂商的大模型。

  • 真正有比较好的 AI 原生应用出来,可能要等到底座模型本身至少具备GPT3.5+以上水平。

问题2:怎么理解「以消费为核心」的数据驱动?(以终为始)

火山引擎总裁谭待观点回到最大的根本,做这件事情,还是希望把目标定清楚,最后其实是以数据消费为目标来做这个事情。跟过去五六年业界讲的数据中台的概念相比,这是一个更大的升级,而且是更有效解决企业数据产生价值的问题。

否则,很多企业投入大量的资源,建完之后有数据,但是没有利用起来,本质就是没有想清楚最终应该围绕什么来做这件事情。以前我们做建设的时候,目标是有偏差的,比如我建一个中台其实不是目标,是实现数据驱动的一个手段

所以我们提出了数据消费、数据飞轮这样的逻辑。企业建设数据时,应该把数据消费作为目标,比如峰会讲的两个 80%:一是 80% 的企业员工能够用到,二是能覆盖到 80% 的分析场景。

2.3 数据飞轮汽车行业最新分享:营销场景下的7个维度问题解决

数据飞轮是基于字节跳动十余年数据驱动实践经验提炼的企业数智化升级新范式,数据飞轮以数据消费为核心驱动,能够帮助企业数据流充分融入业务流,实现数据资产和业务应用相互促进飞轮效应,从而激发员工创造力,增强业务发展动力,提升组织生命力”。

图片来自网络

部分观点:

  1. 数据飞轮本质上是帮助企业更优更快地实现数据驱动”;
  2. “企业践行数据驱动的三板斧,是要通过数据分析厘清需要【做什么】,再通过市场画像判断【给谁做】,最终通过A/B实现确定【怎么做】,“这三板斧中的问题,其实都可以通过数据飞轮的运转找到正确答案”;
  3. 智能是数据飞轮有效转动的最后一公里”;
  4. 火山引擎数据产品负责人郭东东还重点介绍了数据飞轮积极融合包括大模型能力等在内的新技术进展:大数据研发治理套件DataLeap-找数助手和开发助手智能数据洞察DataWind-分析助手

通过对大模型能力的应用,DataLeap-找数助手可以帮助汽车企业员在取得授权的条件下,通过自然语言问答就能在数据库中找到对应的数据;而DataLeap-开发助手则可以帮助员工通过自然语言问答的形式,自动生成代码或者修复优化代码,进一步降低数据开发门槛。

在使用场景更广泛的数据分析方面,DataWind-分析助手支持汽车企业员工仅用自然语言对话,就能对数据进行多维度交叉分析和多种形式呈现,比如针对实时性较强的跨地域整车销量统计,销售岗位的员工只需在DataWInd-分析助手对话框中输入想要获取的数据,而无需再等待数据开发、数据分析等跨部门需求响应排期,即可获取对应数据,省时省力。(非技术人员可以快速实现需求满足)

参考:

  1. 极客时间:AI大模型之美【27|从Midjourney开始,探索AI产品的用户体验】
  2. ​​​​​​​​​​​​大模型时代,「数据飞轮」怎么做? | 极客公园
  3. 数据飞轮汽车行业最新分享:营销场景下的7个维度问题解决
  4. 大模型时代,企业如何构建自己的飞轮效应?
  5. 《飞轮效应》图书:吉姆・柯林斯

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/179222.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Apifox】测试工具自动编写接口文档

在开发过程中,我们总是避免不了进行接口的测试, 而相比手动敲测试代码,使用测试工具进行测试更为便捷,高效 今天发现了一个非常好用的接口测试工具Apifox 相比于Postman,他还拥有一个非常nb的功能, 在接…

小白备战蓝桥杯:Java基础语法

一、注释 IDEA注释快捷键:Ctrl / 单行注释: //注释信息 多行注释: /* 注释信息 */ 二、字面量 常用数据:整数、小数、字符串(双引号)、字符(单引号)、布尔值(tr…

JavaScript 的 DOM 知识点有哪些?

文档对象模型(Document Object Model,简称 DOM),是一种与平台和语言无关的模型,用来表示 HTML 或 XML 文档。文档对象模型中定义了文档的逻辑结构,以及程序访问和操作文档的方式。 当网页加载时&#xff0…

unity3d 旋转cube时变形

将cube移到父路径同级,重置再,更改角度,或者将父路径先重置,再将cube移动到父节点下面

Corel产品注册机Corel Products KeyGen 2023 – XFORCE解决会声会影2023试用30天

CorelDRAW注册机2023支持全系列产品_Corel Products KeyGen 2023 X-FORCE v8 CorelDRAW注册机2023支持全系列产品_Corel Products KeyGen 2023 X-FORCE v8,Corel产品注册机(Corel Products KeyGen 2023 – XFORCE),支持Corel旗下所…

Django请求生命周期流程

浏览器发起请求。 先经过网关接口,Django自带的是wsgiref,请求来的时候解析封装,响应走的时候打包处理,这个wsgiref模块本身能够支持的并发量很少,最多1000左右,上线之后会换成uwsgi,并且还会加…

人工智能技术发展漫谈

版权声明 本文原创作者:谷哥的小弟作者博客地址:http://blog.csdn.net/lfdfhl 人工智能发展历程 人工智能(Artificial Intelligence,简称AI)的发展历史可以追溯到20世纪中叶。以下是一些关键时刻和阶段: 起…

MySQL--日志

日志 错误日志 错误日志是MySQL中最重要的日志之一,它记录了当mysqld启动和停止时,以及服务器在运行过程中发生任何严重错误时的相关信息 当数据库出现任何故障导致无法正常使用时,建议首先查看此日志。 该日志是默认开启的,默认…

Java变量理解

成员变量VS局部变量的区别 语法形式:从语法形式上看,成员变量是属于类的,而局部变量是在代码块或方法中定义的变量或是方法的参数;成员变量可以被 public,private,static 等修饰符所修饰,而局部变量不能被访问控制修饰…

C++进阶篇5---番外-位图和布隆过滤器

哈希的应用 一、位图 情景:给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中??? 看到查找元素的范围,暴力肯定是过不了的,我们要么…

自学成为android framework工程师需要准备哪些装备-千里马车载车机系统开发学习

背景 hi,粉丝朋友们: 大家好!经常有很多学员买课同学都会问到需要准备哪些装备,我也回答了很多学员了,今天就搞一篇文章来统一说明一下,告诉一下大家如果你想从一个framework新手变成一个framework开发的高…

sprintboot快速初始化【Springboot】

1.首先选择创建项目 2.填写对应的项目信息 一定要勾选maven,否则没有pom文件,选择next 3.选择应用场景 点击 create,DIEA就会根据你的选择自动创建项目骨架; 4.创建一个控制层 随便创建一个控制层,测试一下项目是否…

链接1:编译器驱动程序

文章目录 GNU编译器示例编译 GNU编译器 GNU编译器(GNU Compiler)是由自由软件基金会(Free Software Foundation,FSF)开发和维护的一套编译器集合。这些编译器主要用于编译各种编程语言的源代码,将其转换为…

深度盘点:100 个 Python 数据分析函数总结

经过一段时间的整理,本期将分享我认为比较常用的100个实用函数,这些函数大致可以分为六类,分别是统计汇总函数、数据清洗函数、数据筛选、绘图与元素级运算函数、时间序列函数和其他函数。 技术交流 技术要学会交流、分享,不建议…

【Redis实现全局唯一ID】

一、全局唯一ID的需求产生。 在订单业务中,我们需要保证id是绝对唯一的。 使用数据库自增长的id在分布式的情况下把表做了拆分处理后有可能会出现id重复的情况,这就违背了唯一性。而且数据自增长的id有很强的规律性,可以根据id推断出订单的数…

C语言中的static的用法(超级详细)

🌹作者:云小逸 📝个人主页:[云小逸的主页] 📝码云:云小逸 (YunXiaoYi003) 🤟motto:要敢于一个人默默的面对自己,强大自己才是核心。不要等到什么都没有了,才下定决心去做。种一颗树,…

大型网站系统架构演化(Web)

大型网站系统架构演化 大型网站系统架构演化需要关注的维度涉及的技术演进过程单体架构垂直架构使用缓存改善网站性能缓存与数据库的数据一致性问题缓存技术对比Redis分布式存储方案Redis集群切片的常见方式Redis数据类型Redis 淘汰算法 大型网站系统架构演化 需要关注的维度 …

【深入解析git和gdb:版本控制与调试利器的终极指南】

【本节目标】 1. 掌握简单gdb使用于调试 2. 学习 git 命令行的简单操作, 能够将代码上传到 Github 上 1.Linux调试器-gdb使用 1.1.背景 程序的发布方式有两种,debug模式和release模式release模式不可被调试,debug模式可被调试Linux gcc/g出来的二进制…

【Cmake】Cmake基础学习

CMake学习 一、基础学习 1. 利用Cmake进行单个源代码构建可执行文件 (1)基础命令 最基本的 CMake项目是由单个源代码文件构建的可执行文件。对于这样的简单项目,只需要一个包含三个命令的 CMakeLists.txt 文件。 注意: 虽然 CMake 支持大写、小写和混合大小写命令,但是…

Unity 关于生命周期函数的一些认识

Unity 生命周期函数主要有以下一些: Awake(): 在脚本被加载时调用。用于初始化对象的状态和引用。 OnEnable(): 在脚本组件被启用时调用。在脚本组件被激活时执行一次,以及在脚本组件被重新激活时执行。 Reset(): 在脚本组件被重置时调用。用于重置脚本…