字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代要结束了

字节跳动扣子(coze.cn),给国产大模型们组了个大局——

在同一个“擂台”上,两个大模型为一组,直接以匿名的方式PK效果

例如我们对两位参赛“选手”同时提问今年高考的题目:

阅读下面的材料,根据要求写作。(60分)

随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少?

以上材料引发了你怎样的联想和思考?请写一篇文章。

要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。

点击问题的一瞬间,两位“选手”便立刻开始作答:

不难看出,两个大模型不论是在生成答案的速度,或是内容的侧重上均有所不同。

直到有一方作答完毕,这时候我们就可以开始投票了,一共有四个选项可选:

  • A表现更好

  • 两个都好

  • 两个都差

  • B表现更好

在这个case中,因为生成速度相似,我们姑且以个人文字审美为标准,先将票投给大模型A。

投票结束后,两位“选手”的庐山真面目也就揭晓了,分别是通义千问(A)和智谱(B)。

这便是字节跳动的AI应用开发平台扣子上新的玩法——模型广场

这种打擂台的模型,与此前国外极具权威性的大模型擂台Chatbot Arena类似。

它同样是通过用户的参与,匿名两个模型,根据生成内容的表现来打分。

而且这种模式还得到了AI大神Karpathy的高度认可:

是我唯二信任的测试基准之一。

不过有一说一,扣子能让自家“院子”里的大模型们玩这种模式,也是实属罕见。

那么模型广场具体又该如何操作?是否能够hold住脑洞大开的问题?

我们这就来实测一波。

匿名PK,够直接,够刺激

我们现在打开扣子的官网(coze.cn),点击左侧的导航栏**“探索”列表中“模型广场”**,便可开始体验了。

整体来看,对战的模式一共分为三大类:

  • 随机Bot对战

  • 指定Bot对战

  • 纯模型对战

刚才我们所展示的PK案例,就是点击**“随机开始”按钮而来,也就是随机Bot对战**。

具体而言,扣子会从已经上架的Bot中随机挑选一个,然后选择匿名的两个大模型进行PK。

这个模式考验的便是大模型们在任意业务场景下的文本生成、技能和知识调用等能力。

例如我们再来体验一番,这一次的场景就变成了数学老师,我们选择的问题:

某班30人中有15人参加数学建模竞赛,有8人参加数学竞赛,有6人参加英语竞赛,有3人三科竞赛都参加,请问三科竞赛都不参加的至少有多少人?

我们按照生成结果的简洁性,这次把票投给模型B,可以看到这次参赛的“选手”分别是通义千问(A)和MiniMax(B)。

指定Bot对战,则是需要我们先在模型广场下方的众多Bot中挑选一个要测试的场景,然后扣子再从系统中选择匿名的两个大模型来PK。

这个模式在业务场景方面就会更加聚焦和细分。

例如我们在茫茫Bot中,一眼就相中了**“弱智吧十年练习生”**:

这一次我们自己来提问:

被门夹过的核桃,还能补脑吗?

从答案中不难看出,两位“选手”都没有get到这句话里隐藏的“你脑袋被门夹了”的梗,因此——两个都差。

最后一个模式便是纯模型对战——

忽略编排等各种Bot配置的影响,直接评估大模型的文本生成能力。

我们依旧“弱智吧Style”:

高考满分才750,怎么才能考985?

两个大模型都精准get到了985是什么意思,因此依旧是——两个都好。

值得一提的是,无论在哪种模式之下,“选手”如果在回答问题过程中暴露了自己的身份,那么用户所投出的票将被视为无效。

以上便是扣子给国产大模型们打擂台匿名PK的三种模式了。

而纵观扣子此次的新发布,除了大模型本身之外,另外一个关键要素便是Bot。

并且若是亲身体验一番下来,在扣子中创建Bot这件事,最为直接的感受就是够简单够丰富

小朋友都能搭建的Bot

其实模型广场是一个名叫**“扣子AI工坊”**(Coze AI Factory)活动的内容之一,是由扣子和英特尔联合推出的主题 Bot征集活动。

聚焦的是图文创作、实用工具、互动创意三个赛道。

但如果来到扣子的**“Bot商店”**,就不难发现,这里的Bot们并非是一尘不变的那种;相反,倒是非常紧跟热点,非常fashion。

例如正值刚刚高考完,Bot商店首页的“头条位置”留给的就是一个名叫**“高考专业指南”**的Bot,可以说是相当的应景。

除此之外,像**“国内高校百科”“测测你的本命粽子”**等Bot,也是紧跟热点和节假日。

而且Bot的数量之多,简直是刷不到底

但比起数量来说,更重要的还是在扣子中创建复杂的Bot,仅需鼠标“点点点”,就连小朋友都能完成。

第一大步,点击创建Bot,简单填写基本信息:

第二大步,选择自己想要用的大模型:

目前可选的大模型包括豆包、通义千问、智谱、MiniMax、月之暗面和百川。

第三大步,给Bot添加**“技能点”**,同样是“点点点”的操作,就能在扣子已经拥有的海量插件、工作流等内容里pick自己想要的那一个。

最后,一键“发布”,就可以上线想要拥有的Bot。

操作之简单,也就不难理解为何扣子上Bot的数量会如此惊人了。

字节的扣子在下一步什么棋?

我们再回到这次扣子新发布的模型广场,也正如我们在文章最开始提到的,这种把擂台玩法嵌入到自家大模型应用开发平台的,目前在业界算是少见。

那么,字节为什么要这么做?

首先从效果层面来看,从刚才我们创建Bot的过程中不难发现,它所依赖的能力最根本的就是来自扣子生态中所集成的大模型们。

而也正如业界已达成的共识那样——没有一个大模型能够“一统天下”,每个大模型都有自己的擅长之处。

加之每个Bot也都是在细分场景里各有侧重,因此合适的Bot遇到合适大模型,势必将产生1+1>2的效果。

其次从操作层面来看,模型广场的出现着实是为Bot开发者节省了挨个模型比对、试错的成本。

这无疑是给本就操作简易的扣子在操作上锦上添花。

最后是在可信度层面上,扣子所pick的类似Chatbot Arena的擂台模式,已然成为业界对大模型性能认可度的标杆。

毕竟除了前文提到的Karpathy之外,Jeff Dean和李开复也对这种模式给予过高度的认可。

一言蔽之,字节要做的,就是把AI应用开发门槛打下去,把生态壮大起来,让AI应用能“多快好省”地用起来。

扣子地址:coze.cn

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/27173.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

探索数字化转型:提升企业客户服务竞争力的策略

当前,数字经济已成为引领经济发展的“主引擎”。在这一背景下,客户服务领域也在发生着深刻变化,传统的以客服热线、人工客服为核心的客户服务模式已不能满足企业发展的需要,而数字化转型成为企业寻求突破的必然选择。 企业可利用大…

elementui table超出两行显示...鼠标已入tip显示

elementui el-table超出两行显示…鼠标已入tip显示 方式一 <el-table-column label"描述"prop"note"class-name"myNoteBox"><template slot-scope"scope"><!-- tips悬浮提示 --><el-tooltip placement"to…

OpenAI把GPT-4原始版给了他们:研究不微调只靠提示词能走多远

除了OpenAI自己&#xff0c;居然还有别人能用上GPT-4-Base版&#xff1f;&#xff1f; 也就是未经微调的预训练版&#xff0c;还不会对话聊天&#xff0c;只会补全句子的模型。 EPFL&#xff08;瑞士洛桑联邦理工&#xff09;团队申请到了访问权限&#xff0c;用于研究**“上…

某文旅集团定岗定编项目成功案例纪实

——加强一专多能培训&#xff0c;增加人员履职&#xff0c;提高工作饱和度 【客户行业】文旅行业&#xff1b;国有企业 【问题类型】定岗定编 【客户背景】 北方某一线城市的文旅集团&#xff0c;是国资委下属的一家企业&#xff0c;主营业务包括&#xff1a;出租商业用房…

HCIE-QOS流量监管-拥塞管理

QOS流量监管-拥塞管理 QOS数据处理流程流量限速技术-令牌桶技术单桶单速双色标记法双桶单速三色标记法&#xff08;常用&#xff09;双桶双速三色标记法 流量监管承诺访问速率流量监管使用场景配置基于接口的流量监管配置MQC实现流量监管 流量整形流量整形的实现 (1)流量整形的…

【Python】Python开发面试题库:综合考察面试者能力

文章目录 Python开发面试题库&#xff1a;综合考察面试者能力1. 基础语法与数据类型问题1&#xff1a;变量与数据类型问题2&#xff1a;列表与字典操作问题3&#xff1a;字符串操作问题4&#xff1a;元组解包问题5&#xff1a;集合操作问题6&#xff1a;基本运算问题7&#xff…

LeetCode | 21.合并两个有序链表

这道题也是很经典的一道题了&#xff0c;408的算法题中也考过这个思想&#xff0c;因为两个链表已是升序&#xff0c;合并只需要两个指针&#xff0c;分别指向两个表的表头&#xff0c;分别比较两个指针所指向的结点的val&#xff0c;小的就插入到目标链表里面&#xff0c;再后…

鸿蒙轻内核Kconfig使用笔记

鸿蒙轻内核使用Kconfig进行图形化配置&#xff0c;本文专门讲解下鸿蒙轻内核LiteOS-M和LiteOS-A的图形化配置方法。本文中所涉及的源码&#xff0c;均可以在开源站点 https://gitee.com/openharmony/kernel_liteos_a 、 https://gitee.com/openharmony/kernel_liteos_m 获取。本…

交友系统定制版源码 相亲交友小程序源码全开源可二开 打造独特的社交交友系统

交友系统源码的实现涉及到多个方面&#xff0c;包括前端页面设计、后端逻辑处理、数据库设计以及用户交互等。以下是一个简单的交友系统源码实现的基本框架和关键步骤: 1.数据库设计:用户表:存储用户基本信息&#xff0c;如用户ID、用户名、密码、头像、性别、年龄、地理位置…

深入解析 MySQL 事务:从基础概念到高级应用

深入解析 MySQL 事务&#xff1a;从基础概念到高级应用 一、定义 事务是由一个或多个 SQL 语句组成的独立工作单元&#xff0c;在这个单元中&#xff0c;每个 SQL 语句都是相互依赖的。事务作为一个不可分割的整体存在&#xff0c;要么全部成功&#xff0c;要么全部失败&…

APP安全测试总结-看这篇就够了

APP安全测试项总结如下&#xff1a; 一、静态分析 代码审查&#xff1a;检查代码是否存在安全漏洞&#xff0c;如硬编码密码、敏感信息明文存储等。配置文件分析&#xff1a;分析APP的配置文件&#xff0c;查看是否存在不当的权限设置等。反编译测试&#xff1a;使用反编译工…

【我是产品经理_注册安全分析报告】

前言 由于网站注册入口容易被黑客攻击&#xff0c;存在如下安全问题&#xff1a; 暴力破解密码&#xff0c;造成用户信息泄露短信盗刷的安全问题&#xff0c;影响业务及导致用户投诉带来经济损失&#xff0c;尤其是后付费客户&#xff0c;风险巨大&#xff0c;造成亏损无底洞 …

go匿名函数

【1】Go支持匿名函数&#xff0c;如果我们某个函数只是希望使用一次&#xff0c;可以考虑使用匿名函数 【2】匿名函数使用方式&#xff1a; &#xff08;1&#xff09;在定义匿名函数时就直接调用&#xff0c;这种方式匿名函数只能调用一次&#xff08;用的多&#xff09; &am…

【推荐系统简介以及其链路流程】

文章目录 1、数据收集和预处理1.1、推荐系统的数据架构 2、用户&#xff08;user&#xff09;画像和物品&#xff08;item&#xff09;画像的构建3、特征工程3.1、特征提取的框架3.1.1、物料画像3.1.2、用户画像3.1.3、交叉特征3.1.4、偏差特征 3.2、数值特征的处理3.2.1、缺失…

数据更新-插入元组(VALUES)、修改属性(SET)、删除元组(DELETE)

一、插入元组 1、插入单个元组&#xff08;使用的是VALUES子句&#xff09; &#xff08;1&#xff09;语句格式 INSERT INTO <表名> 【&#xff08;<属性名1【&#xff0c;<属性名2>&#xff0c;...】&#xff09;】 VALUES &#xff08;<常量1>【&a…

RGB摄像头设置图像格式(YUV/MJPEG)不生效问题

linux平台摄像RGB摄像头图像格式不生效问题记录。 有问题的代码流程&#xff1a; 1.rgb_init打开摄像头 2.start设置rgb图像格式然后取流 3.stop停止取流 4.rgb_deinit关闭摄像头 使用流程&#xff1a; 设置MJPEG格式&#xff0c;开始取流&#xff0c;停止取流&#xff0…

后端项目实战--瑞吉外卖项目软件说明书

瑞吉外卖项目软件说明书 一、项目概述 瑞吉外卖项目是一个外卖服务平台&#xff0c;用户可以通过该平台浏览餐厅菜单、下单、支付以及追踪订单状态。产品原型就是一款产品成型之前的一个简单的框架&#xff0c;就是将页面的排版布局展现出来&#xff0c;使产品得初步构思有一…

有哪些常用ORM框架

ORM&#xff08;Object-Relational Mapping&#xff0c;对象关系映射&#xff09;是一种编程技术&#xff0c;它允许开发者使用面向对象的编程语言来操作关系型数据库。ORM的主要目的是将数据库中的数据表映射到编程语言中的对象&#xff0c;从而使得开发者可以使用对象的方式来…

如何加速海外网络?提升海外应用访问速度的策略

随着全球化的迅猛发展&#xff0c;越来越多的国内企业需要与海外合作伙伴进行业务往来和数据交流。然而&#xff0c;许多企业在访问国外网站和应用时常常面临卡顿和延迟的问题&#xff0c;这不仅降低了工作效率&#xff0c;还可能错失商机。那么&#xff0c;企业如何在访问海外…

Android面试题之ActivityManagerService的启动流程

本文首发于公众号“AntDream”&#xff0c;欢迎微信搜索“AntDream”或扫描文章底部二维码关注&#xff0c;和我一起每天进步一点点 SystemServer启动 创建SystemContex 用于加载系统相关的资源&#xff0c;比如theme&#xff0c;android命名空间下的资源等创建引导服务&#…