活久见!谁想的这种办法让大模型PK

文|白    鸽

编|王一粟

“每个大模型看起来都差不多,只能谁便宜先用谁的。但用下来之后,不合适再换,又费钱又费力”,一位AI 招聘公司的创始人对光锥智能抱怨道。

2024年,大模型正在加速走向行业应用。但每一种大模型所擅长的领域都不一样,如何找到最适合自身业务场景的大模型,成为摆在开发者们眼前的难题之一。

“在之前做大模型应用开发过程中,我们一般会先选择一到两个大模型,单独对接研发产品,Demo出来之后,再去评估大模型是否合适。”一位开发者如此对光锥智能说道。

不难看出,这种大模型应用开发方式,耗时耗力,开发成本也非常高昂。

基于此,当前各大厂商都在AI应用开发平台中内置了模型评估和模型选择等功能,比如百度智能云千帆大模型平台、亚马逊云科技的Amazon Bedrock等。

但这些平台的模型评估和选择功能,更适用于企业级开发者。于普通的个人开发者而言,尤其是没有编程基础的用户,很难搞清楚这背后模型评估的逻辑。

那么,有没有一种更加简单、清晰、适合个人开发者的模型评估与选择方式?

字节跳动将自身经典的A/B测试方法论,带到了大模型选择与评估上。

6月12日,由字节跳动AI应用开发平台—扣子(coze.cn)推出了「扣子模型广场」。模型广场主要包含两方面能力:

其一,模型集市。模型广场已经接入多个国内头部大语言模型,包括豆包、通义千问、智谱、MiniMax、Moonshot 、Baichuan等,在创建Bot(智能体)、调试Bot时都可以一键切换。

其二,模型竞技场。通过类似小游戏的模型对战,开发者可以让两个隐藏了模型的Bot一键PK,并根据模型的回答进行投票,投票结束后才会揭秘具体的模型。

一键PK,傻瓜式的操作,为开发者提供了一种相当简单便捷地筛选大模型的方式。

这种PK,类似对大模型进行“A/B测试”,给予大模型真实的人类反馈,能够快速促进大模型的升级迭代,从而为Bot应用开发提供更好的底层技术能力支持。

同时,为了激励开发者使用大模型来开发Bot,扣子联合 Intel 推出 AI 工坊活动,重点覆盖图文创作赛道、实用工具赛道、互动创意赛道三大赛道。

为了能够给开发者提供“开箱即用”的体验,扣子上线了Bot商店、插件商店,甚至开发者最关注的核心工作流也于近期有了商店。

可以看到,2024年已经过半,大模型的能力迭代和智能体的应用落地都在同步快速进展中。

而字节跳动在推荐算法时代赖以生存的“数据驱动”的底层思维,已经悄然在大模型上实现。用大模型竞技场吸引用户反馈,让大模型的调用量提升起来,再带动Bot的开发。后续,再结合字节跳动的内容生态特点,完成商业化闭环。

字节跳动,这家在移动互联网时代的“App工厂”,已经开始进化成“大模型工厂”。

模型竞技

小游戏测出大模型的效果

A/B测试的思维,深植于字节跳动的企业文化与基因中。

对于字节跳动组织内的人员来说,上至中高管理层,下至一线产品、运营人员,都有一个普遍共识:A/B测试是一切决策的前提与基础。上线任何策略之前,先跑一遍A/B测试,用数据说话。

比如今日头条、抖音、西瓜等,这些产品的名字并非产品经理或者业务负责人拍脑袋、经验主义的决策结果,而是将不同名称的应用包上架至应用市场之后,通过下载率和分享率来进行定夺,本质上即通过A/B测试的思想,将产品的决策权交给了用户。

产品功能上,抖音弹幕功能上线前,团队应用A/B测试设计一个实验,将没有弹幕的页面设置为对照组,将有弹幕无其他互动功能的页面和有弹幕有其他互动功能的页面分别设为实验组1、2。

通过实验,抖音团队发现弹幕功能在叠加其他互动功能的时候,可以提升互动率,但同时,视频的浏览量和用户留存都有下降。即,弹幕功能不足以转化为长期的比较稳定的用户价值。因此,实验后抖音团队作出的决策是不上线此功能。

而此次扣子推出的模型广场中“模型竞技功能”,也同样延续了A/B测试机制。



模型竞技主要有三种模式:

指定Bot对战,即用户可以选择一个感兴趣的Bot,扣子将随机选取两个匿名模型,基于Bot的Promt、工作流、知识库等能力配置回答用户的问题。主要适用于评测模型在指定细分领域的文本生成、技能和知识调用等能力。

指定Bot对战模式

随机Bot对战,即扣子将从上架Bot中随机选择一个Bot,并随机选择两个匿名模型,基于Bot的Promt、工作流、知识库等能力配置回答用户的问题。主要适用于评测模型在任意业务场景下的文本生成、技能和知识调用等能力。

随机生成一个Bot对战模式

纯模型对战,即不指定任何Bot,统随机选择两个模型展开对决,模型回答不受 Promt、工作流等配置的限制和影响,适用于评测模型本身的文本生成等能力。

纯模型对战模式

不管是哪一种竞技方式,都需要用户对模型进行提问,然后基于模型回答问题所生成的内容,通过进行AB选择,来评判其生成内容的好坏,进而来评估大模型的能力。

在光锥智能体验的过程,点击随机开始后,扣子平台系统会随机选择两个Bot,比如影视分析Bot,这两个Bot背后所对应的是两个不同的大模型产品。页面上会简单介绍两个Bot的使用场景,并一般会在Bot下方提供具体的链接或者与具体使用场景相关的问题,比如抖音视频链接、影视内容等。

用户可以直接点击Bot提供的问题,也可以自主进行提问,在提问之后,两个模型开始作答,回答内容完成后,下方会显示此次回答所用时长,以及会继续给出相关的问题。

如果仅是简单测试,此时已经可以进行Bot回答内容优劣选择,包括选择A或B,以及两个都好和两个都差。在选择完成后,会显示出两个Bot背后的大模型产品,以及大模型的相关性能。

这种简单的“AB选择”的小游戏,能够激发普通人使用大模型竞技场的欲望。

用户可以以极低成本,广泛参与模型广场的PK对决,来扣子感受AI的魅力,尤其是没有编程经验的普通人。如果能够再提供一定的奖励机制,就更能带动更多用户参与真实模型反馈。

于开发者而言,想要在扣子上搭建一款Bot应用,在搭建前可通过模型广场,进行大模型PK,从而能够更简单、高效、便捷的选出最合适的大模型产品,极大的降低了使用大模型的门槛。

而对大模型厂商而言,模型竞技带来了真实的人类反馈,这个数据超级珍贵。

比如OpenAI自上线ChatGPT后,自身大模型能力进化速度非常快。在今年春季发布会上,OpenAI的GPT-4o已经向更自然的人机交互迈进了一步,其可接受文本、音频和图像的任意组合作为输入内容,并生成文本、音频和图像的任意组合输出内容。

在国内,去年百度文心一言也宣布正式向公众开放服务,用户可在App Store(免费榜第一)、官网下载/体验,无需申请内测资格即可使用,这也就意味着文心一言能够获取更多用户真实的反馈数据。

也因此,在扣子平台模型广场上,随着越来越多用户进行模型PK,就会汇聚更多用户真实反馈数据,能够持续不断的推动大模型能力的迭代,来为用户提供更好的体验。

因此,在扣子平台上,开发者能够更好的调动大模型能力开发产品,大模型厂商基于真实数据进行产品能力的迭代升级,不断激发平台上应用的创新,形成完整的大模型应用开发生态闭环。

也就是说,扣子平台的AI应用开发生态,也形成了良性开发和竞争环境。

AI开发平台这么多

智能体爆款在哪里?

在大模型应用的过程中,Bot(智能体)成为了重点方向之一。

从去年开始,各大厂商也都在积极布局Bot(智能体)开发平台。比如 OpenAI的GPT Store、字节跳动的扣子、腾讯云的腾讯元器、百度智能云的千帆AgentBuilder、阿里云的AgentScope多智能体开发平台等。

不可否认的是,虽然各家都在做Bot(智能体)开发,但当前并未出现一款真正的爆款应用。究其原因,还是现阶段大模型应用并不能够让用户觉得好用、爱用。

“目前AI应用平台虽然很多,但做出来的应用都是浮于表面的,没有解决行业的问题。”银泰百货零售百货数智化产品负责人得壹对光锥智能称。

光锥智能在体验各种Bot时,体验并不是很好。首先是很实用的Bot并不多,工具效率类如短视频选题、小红书爆款文案生成器等相对较好,但其他类似甄嬛传十级考试的就比较尝鲜式,体验和小程序差不多,并不能特别突出大模型的优势。

另外,即使是儿童百科这样的Bot,回答的内容不够深度,需要有更为标准的指令词,才能获得更精准的答案,但这对于没有编程基础的普通用户而言,并不是一件容易的事情。

同时,在企业级的应用中,现阶段也很难将人工智能与人工完全分开,都是需要与人工进行相互配合,才能够更好的为客户提供服务。

因此,如何开发一款好用的Bot,能够让更多用户使用它,则成为了大模型应用突围的关键。那么,究竟如何才能够开发出一款真正好用的Bot?

极低的大模型使用门槛和成本,是推动用户不断开发各种AI Bot的基础。不过,一位从业者表示,Bot(智能体)开发起来很容易,但对于优化很耗费时间。也就是说,普通人开发一款Bot门槛并不高,但想要让它真正好用,难度却比较大。

所以除了大模型的基础能力,各种拓展Bot技能的插件、工作流、图像流、触发器等工具,也是开发一款好用Bot的关键。

比如,用户既可以一句话创建个简单的Bot,也可以像拼图一样,把几个功能组装成一个Bot,这种组装的Bot就是工作流

“一位汽车发烧友使用工作流功能添加5个节点,就实现了根据用户需求搜索车型、对比参数,到最终输出图文并茂的购车建议的全部流程,用自己的专业知识解决了身边朋友们选车困扰。”扣子产品经理潘宇扬如此说道。

斯坦福大学教授、人工智能著名学者吴恩达指出,AI智能体的工作流程将在今年推动人工智能取得巨大进步,甚至可能超过下一代基础模型。

之所以有如此判断,原因在于通过Agent工作流,开发者可以要求LLMs对文档进行多次迭代,对于AI来说,这种迭代工作流产生的结果则会比一次性写作要好得多。

吴恩达根据数据发现,GPT-3.5(零样本)的正确率为48.1%,GPT-4(零样本)的正确率更高,为67.0%,其表现相差并不是很大。但通过引入迭代工作流,GPT-3.5正确率高达95.1%。

因此,当前工作流正在成为Bot(智能体)开发过程中的关键一环,也备受开发者们关注。

针对图像素材的处理,扣子平台还有专门处理素材的图像流,涵盖素材获取、素材编辑、素材导出三大环节,让作图变得更简单。

此外,即使同一个Bot,用户的需求也并不完全一样。

因此,扣子平台还提供了长期记忆、数据库、文件盒子等功能。基于这些功能,Bot会记住用户说过的关键信息、喜好,甚至连用户看过的文件、偶然冒出的小想法都会细心捕捉。

比如在旅游时,如果用户觉得某个地方的葡萄酒不错,当下次想小酌一杯时,Bot就会根据其的口味,推荐适合的那一款。

但Bot只了解用户是远远不够的,大模型的知识来源于训练数据,它并不了解最新发生的事情,自然也无法帮用户触达周边的服务。

而扣子提供的插件、触发器、知识库等能力,则可以让Bot不断获取新的信息,从而更加了解用户身边的世界。比如每天早上,它会帮你查询天气,规划通勤路线;工作时,它可以帮你分析邮件,提炼要点;下班后,它能为你推荐感兴趣的视频,和你聊天解闷。

基于以上能力,普通开发者也能搭建出很强能力的Bot,把自己的专业能力用AI发挥出来。

目前,扣子上已经发布了海量Bot,主要应用场景分类为效率工具、商业服务、文本创作、学习教育、代码助手、生活方式、游戏、图像与音视频、角色等。

据光锥智能观察,目前热度最高的应用类型,主要是效率工具,游戏、图像与音视频等,毕竟,这些场景天然与生成式AI的落地应用适配,并且是人们日常生活中最常应用的领域。

随着大模型时代的到来,互联网时代数字化的需求(衣食住行),或许都可以用AI 重新做一遍。而真正AI Native的应用,或许就诞生其中。

构建商业闭环

真正走向市场

如果不能够将开发出来的Bot实现商业化落地,产生商业价值,也势必不会真正的走向市场。

近日,据媒体报道,微软宣布Copilot GPTs将于7月10日起停服,用户已经创建的GPTs将被清空。Copilot GPT Builder允许Copilot Pro用户创建和共享定制的特定任务聊天机器人,类似于微软投资OpenAI的定制GPT Builder和GPT Store。

对此,微软给出的官方解释是公司战略调整——正在将GPT的重点转向商业和企业场景,背后原因可能是缺乏商业回报。Copilot GPTs关闭引发了用户不满,批评者质疑此举会切断创新并削减消费者对于产品的信任。

“不少智能体目前都是高开低走,用户都是尝鲜玩一下,后期都吃灰了。而且,能高开的都是极少数。”一位开发者如此对光锥智能说道。

那么,如何让智能体真正的用起来?必须要在特定的场景、产生真正可用的价值。

业内皆知,字节跳动拥有强大的图文、视频音频生态内容体系,抖音和头条也养活了一批依靠其流量转化的企业和个人用户。

图文和音视频,一定是字节跳动在大模型赛道的优势领域。

此次由扣子和 Intel 联合推出的主题Bot征集活动扣子 AI 工坊( Coze AI Factory ),主要涵盖图文创作赛道、实用工具赛道、互动创意赛道三大赛道。

而这三大赛道,也将成为字节跳动帮助开发者的Bot应用实现商业价值的试验田。

我们可以试想一下,如果抖音、头条能够直接在后台为开发者应用提供接口,就能够让抖音、头条用户直接使用Bot应用。像类似MBTI性格测试的产品,通过在抖音视频中添加链接,吸引用户使用该产品,就可以实现转化和收益。

而实用工具赛道,则是社会发展的刚需,比如对于文字工作者来说,类似爆款文案生成器、抖音爆款文案搜集等Bot,能够为其提供更多的能力支持。

随着扣子模型广场的推出,以及AI工坊活动持续吸引开发者入驻,字节跳动在大模型赛道中,从技术,到产品,再到市场的闭环,已经逐渐完善起来。现如今,还差的就是一款爆款Bot应用,来推动闭环的完成,我们还需要再给Bot多一些时间。

(扣子 AI 工坊(Coze AI Factory)大赛鼓励专业人士及 AI 爱好者们制作创意且使用的 AI Bot ,17万奖金、超多流量扶持、字节offer 等你来拿!扫描下方海报二维码参赛!)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/852059.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Apollo配置中心】集成springboot自动监听属性变更和动态发布配置

1. 背景 在实际项目中,Spring Boot项目结合使用Apollo配置中心时,经常会遇到需要更新Apollo上的项目的一些配置,比如测试环境或生产环境中,需要修改某个类的属性值,如果我们在Apollo上更新了配置,已经在运…

因数与倍数 初级题目

最近又来更题了。这一次是《第三单元 因数与倍数第一部分》的初级题目。 参考答案见文尾 参考答案: CBDAABCBBACCCCCBCDCC

3389端口修改工具,修改3389端口的操作

3389端口作为远程桌面协议(RDP)的默认端口,常常成为黑客攻击的目标。为了提高系统的安全性,修改3389端口成为一项重要的安全措施。本文将详细介绍如何使用3389端口修改工具进行专业操作,以确保系统的安全稳定。 一、备…

计算机网络(3) 字节顺序:网络字节序与IPv4

一.小端与大端 小端(Little endian):低字节保存在内存低地址,高字节保存在内存高地址。 大端(Big endian):低字节保存在内存高地址,高字节保存在内存低地址。 例如(14…

Python私教张大鹏 Vue3整合AntDesignVue之DatePicker 日期选择框

案例&#xff1a;选择日期 <script setup> import {ref} from "vue";const date ref(null) </script> <template><div class"p-8 bg-indigo-50 text-center"><a-date-picker v-model:value"date"/><a-divide…

Day50 代码随想录打卡|二叉树篇---验证二叉搜索树

题目&#xff08;leecode T98&#xff09;&#xff1a; 给你一个二叉树的根节点 root &#xff0c;判断其是否是一个有效的二叉搜索树。 有效 二叉搜索树定义如下&#xff1a; 节点的左子树只包含 小于 当前节点的数。节点的右子树只包含 大于 当前节点的数。所有左子树和右…

unity开发Hololens编辑器运行 按空格没有手

选择DictationMixedRealityInputSystemProfile 如果自定义配置文件 需要可能需要手动设置 手部模型和材质球

Centos: ifconfig command not found且ip addr查不到服务器IP

前段时间部门新派发了服务器&#xff0c;让我过去使用U盘装机&#xff0c;装完后使用ifconfig查不到服务器IP地址&#xff0c;ip addr也是查不到 ifconfig&#xff1a;command not found (这两个图片先用虚拟机的替代一下) 在网上找资料(CSDN&#xff0c;博客园&#xff0c;知乎…

使用 Vue 和 Ant Design 实现抽屉效果的模块折叠功能

功能描述&#xff1a; 有两个模块&#xff0c;点击上面模块的收起按钮时&#xff0c;上面的模块可以折叠&#xff0c;下面的模块随之扩展 代码实现&#xff1a; 我们在 Vue 组件中定义两个模块的布局和状态管理&#xff1a; const scrollTableY ref(560); // 表格初始高度…

分类模型:MATLAB判别分析

1. 判别分析简介 判别分析&#xff08;Discriminant Analysis&#xff09; 是一种统计方法&#xff0c;用于在已知分类的样本中构建分类器&#xff0c;并根据特征变量对未知类别的样本进行分类。常见的判别分析方法包括线性判别分析&#xff08;Linear Discriminant Analysis, …

人工智能的潜在威胁:罗曼·扬波尔斯基对AGI的警示

随着科技的飞速发展&#xff0c;人工智能&#xff08;AI&#xff09;技术正迅速成为人类社会不可或缺的一部分。然而&#xff0c;随着人工智能技术的发展&#xff0c;一些科学家对其潜在的危险表示了担忧。本文将深入探讨计算机科学家罗曼扬波尔斯基对人工智能特别是人工通用智…

Python学习笔记7:入门知识(七)

前言 之前说过我更换了新的学习路线&#xff0c;现在是根据官方文档和书籍Python crash course来进行学习的&#xff0c;在目前的学习中&#xff0c;对于之前的知识有一些遗漏&#xff0c;这里进行补充。 学习资料有两个&#xff0c;书籍中文版PDF&#xff0c;关注我私信发送…

Joplin Typora 粘贴图片 | 当使用Typora作为Joplin编辑器时,如何粘贴图片并上传到Joplin服务器,替换链接

一、背景 当我们使用Joplin时&#xff0c;上传图片时会自动上传到Joplin服务器并替换链接 但是Joplin的编辑器不好用&#xff0c;我更习惯用Typora来编辑&#xff0c; 然而Typora中上传的图片只能在本地&#xff0c;无法上传到Joplin服务器&#xff0c;在其他客户端也看不到图片…

C#——方法函数详情

方法(函数) C#是面向对象的,所以C#中的方法也是相对于对象来说的,是指某个对象的行为,比如,有一个动物的类,兔子是这个动物类里的一个对象,那么跳这个行为就是兔子这个对象的方法了.其实也就是C中的函数(C是面向过程的,叫函数). 方法: 就是把一系列相关的代码组织到一块 用于…

语法07 C++ 程序中的除法和求余

程序中的除法 int / int int double / int double int / double double double / double double 规律总结 只要除号任意一边出现了double类型&#xff0c;结果就是double类型 只有除号两边都是int类型&#xff0c;结果才是int类型 这个规律也适用于加法减法和乘法 …

服务器端渲染(SSR)

什么是服务器端渲染 ssr SSR 的全称是 Server Side Rendering&#xff0c;对应的中文名称是:服务端渲染&#xff0c;也就是将页面的 html 生成工作放在服务端进行。 网页通常是通过后端路由直接给客户端的。也就是说网页的html一般是后端服务器里通过模板引擎渲染好后再交给前…

操作系统入门系列-MIT6.828(操作系统工程)学习笔记(七)---- 系统调用函数与GDB(Lab: system calls)

系列文章目录 操作系统入门系列-MIT6.828&#xff08;操作系统工程&#xff09;学习笔记&#xff08;一&#xff09;---- 操作系统介绍与接口示例 操作系统入门系列-MIT6.828&#xff08;操作系统工程&#xff09;学习笔记&#xff08;二&#xff09;---- 课程实验环境搭建&am…

Python 围棋游戏【含Python源码 MX_008期】

简介&#xff1a; 围棋&#xff0c;源自中国&#xff0c;是一种两人对弈的策略棋类游戏。它被认为是世界上最复杂的棋类游戏之一&#xff0c;因为它的规则简单&#xff0c;但变化复杂多样。围棋的游戏目标是在棋盘上占领更多的地盘&#xff0c;并用自己的棋子围住对手的棋子&am…

docker-compose harbor 2.11

harbor 前言 “Harbor” 是一个用于管理容器镜像的开源仓库项目。由 VMware 开发和维护,Harbor 提供一个企业级的 Docker 镜像仓库,具有丰富的功能,包括: 镜像管理:提供存储和分发 Docker 镜像的能力。安全性:支持镜像签名和漏洞扫描,确保镜像的安全性。身份认证:集成…

41 mysql subquery 的实现

前言 sub query 是一个我们经常会使用到的一个 用法 我们这里 看一看各个场景下面的 sub query 的相关处理 查看 本文, 需要 先看一下 join 的相关处理 测试数据表如下, 两张测试表, tz_test, tz_test03, 表结构 一致 CREATE TABLE tz_test (id int(11) unsigned NOT NUL…