大模型产品层出不穷,如何慧眼识珠?

先预祝亲爱的读者们“端午安康“

大模型百花齐放,选择难上加难

面对眼前层出不穷的大模型产品,许多人会不禁感到困惑:哪个才是真正适合自己的爆款大模型?在中国本土 alone,就有百来个大模型产品,简直是五花八门,令人眼花缭乱。每个都标榜自己的优势,声称自己是业界翘楚。但我们如何能看穿这些华丽的外包装,找出真正能满足我们需求的那款大模型呢?

首先,我们要明白看待大模型不能只盲听其自夸,只看它们如TV Show、广告、宣传,预告片一样的宣传片。这只是最表面的一层,我们要深入其中,理性地分析每个模型的科学性、可信性和可用性。

要想选出性能优越、价格合理的大模型产品,我们需要考虑的因素有很多。

  1. 性能,性能肯定是第一位的,没有出色的性能,模型即使包装再漂亮,也只是耍花枪,玩具。
  2. 长文本处理能力,也是一个关键的标准,只有这样才能满足在各种场景下处理、分析大量数据的需求。
  3. 理解能力推理能力
  4. 国际化支持是否友好
  5. 参数可干涉性
  6. Token收费情况
  7. 多模态的识别与输出
  8. 鲁棒性

这些都是对一个大模型是否可用的核心关键指标,对模型的选择有直接影响。

但是,对于一般大众来说,以上这些技术指标很难完全理解。

没关系,其实选型大模型就像选购商品一样,我们需要看的是它的“性价比”

  • 性能就好比商品的质量;
  • 长文本处理能力就像是容量大小;
  • 理解能力和推理能力好比是商品的使用便捷程度;
  • 友好的国际化支持就像售后服务;
  • 参数干涉性则类似产品的可自定义程度;
  • Token收费情况就是价格;
  • 多模态的识别与输出就是商品的附加功能;
  • 鲁棒性好比产品的安全性;

为了选出适合自己的大模型,我们需要综合考虑这些因素。实际上,这些都是大模型性能的“八大金刚”,缺一不可。每一个都可能影响到大模型的最后落地效果。

在这众多的大模型产品之中,我相信,只要你扔掉“看广告选商品”的思维,学会独立思考,多角度,多方位的去理解和考虑,那么你一定能选出最适合你的那款大模型。

下面就带大家具体来了解这“八大金刚”。

性能:单次来回速度

当应用开发落地时,一个“业务闭环”完成了,一个RAG通过大约300个字的猫娘(系统角色设定)脚本框定住了AI的“角色”和相关的在垂直领域的反映+一次RAG选出来10条数据+用户的提示,大约这么一组数据在1000个英语字母(包括汉字)一次发给LLM,等了5秒以后它才返回。

这个体验可是受不了的,因为>5秒后的HTTP响应让你会有在手机端或者是PC侧有一个明显的“等待”的体验。这可咋办?前面硬件已经7位数耗掉了,现在这个体验跟不上。

这才10条数据啊,这猫娘脚本可不能无限再精减下去,没有了猫娘脚本的设定这个系统是要出问题的,网上的例子都是小于200字的猫娘那些全部没有一个可以实际生产落地的最多用来玩一下的如:hello world。这这这。。。这没法用啊。

生产级的RAG在我之前的博客中都已经写过了,往往是:

  • 发送出去:猫娘+提示+历史会话=1,400Token;
  • 回答:800-1,200 Token;

各位,看到这,我可以给出大家对于性能这块指标的一个识别公式了,你们不要去看TV秀、视频秀。很多模型在“秀”时,要么是调用了所有算力集中在这15分钟演示时以起到良好的体验效果,要么。。。就不多说了。不能看这些表面功夫而要看一个LLM:

如果是在MAAS情况

每秒输出多少Token?

这个就决定了你的性能。我们按照一个汉字占2.5个Token来算,各位就可以得出大约生产级别的单次来回需要多少秒(这边我可以纠正各位一个误区,当发送和响应的内容增加时即使是Stream模式,也不可能做到第一秒就开始输出第1个或者第2个字这样的水平,而也是需要10-17秒后才开始响应的过来才开始输出第一个汉字,因此不要把stream模式作为借口,这是我落地了4个大模型项目得到的血的教训)。一定要看每秒输出多少Token来作为衡量指标,直接去官网找这些指标吧。

历来博客中我也提到过,这方面GPT3.5属实最猛,生产级别应用单次会话在2,000 Token的3秒多一点点就返回了,可见其强大的能力(和算力还是有关)。

如果是在本地布署情况

在你可接受的预算范围内的硬件情况下,每秒输出是多少Token来选择。你不能拿着拥有一座水电站能力的一秒输出Token数来对比我硬件预算只有50万RMB情况下的一秒输出Token数来比吧。。。另外。。。(干咳)一个项目,一个商业项目硬件预算50万? Are you kidding me?20万已经算很好了在大部分企业落地商用大模型的情况下。不是越贵越好的,技术是赋能不是割草哈。

长文本输入能力:每次Token长度

这里面有一个坑,即一味得我们看到长文本文达到了128K、256K、512K。这块能力其实和性能是相关的。你真的扔个120K东西出去然后留8K作返回,我们来看看这个模型是怎么响应的吧:

  1. 4分之3情况下,http timeout;
  2. 4分之1情况下,50多秒才返回;

这样的模型,即使长文本到达了1GB,你能用吗?

这个东西其实是缓存一样的道理,你总不能把一整个DB存入Redis吧,你总要“切片、sharding、聚合、无损/有损压缩“吧。要不然这个实施项目太简单了,直接把一整个DB扔进Redis,那系统性能是好呀但是现实可能吗?

要结合着性能来看,目前就拿GPT Turbo 128k来说,其实它的单次响应速度很慢的。因此这时我们需要在系统和项目实施时按照“实时、跑批异步“加以区分然后有针对性的去打”组合拳“,万事不能一刀切,不能一个模式死磕到底。

理解能力

什么是理解能力?

理解能力是指它是不是真正的“听懂了”你说的话,这叫理解能力!

同样我们使用生产级别的内容来评判这个理解能力。之前的博客我提到过这么一个案例,要测就用一个实际生产级别的案例去测,不要再用什么”一颗树上7只鸟。。。“这种简单的问题去测了。下面再次给出这个案例:

猫娘

对于住房管理维修业务分为分套内和套外两种。套内(包括住房内所有电器、空调、住房内装修、住房内器具、用品、家具、住房内厨房、卫生间、洗浴等用品、住房内家内空间里的一切物品)指客户的住房内全部问题属于“A物业”公司负责。套外(包括小区、苑、园区、楼道)即客户住房外部的一切问题如:楼道、电梯、公共走廊、门厅、小区内的绿化带、停车场、健身区、儿童游乐场等共享设施,以及建筑物的外墙装饰、屋顶防水处理这些问题这些都属于“B物业”公司负责。

问题

然后用下面这个问题去问:

家里马桶坏了,找谁?

看它回答对不对。

推理能力

推理能力决定了大模型在复杂问题上的表现。怎么测呢,需要用至少3个维度的推理去测和验证,比如说这么一个问题:

你是XXXX商户的美食在线接单后派送服务机器人。
你现在收到了用户的一个派单请求,请你判断:
1. 用户当前的位置在你的服务位置/范围内,如果是,canService返回1否则返回0;
2. 用户当前发送的内容不是定位请求,如果是定位请求validRequest返回1否则返回0;
3. 用户当前的派单是否在你的营业时间<%serviceTime%>范围内,是那么返回todayDelivery为1否则返回0;

实际生产中还有不少其它因素,甚至还有上下文、角色定义混在一起的这么一个判断,差不多去+回在1,400 Token,3层判断,然后我们测10次看10次返回的结果是否都达到了100%准确来做判断;

国际化支持

对国际化支持是否够好,决定了大模型的适用范围。一般一个良好的大模型应该具备这样的能力:

语料(即知识库、向量库或者说叫embedding库)只有一种语言时,前端通过切换LOCALE为: zh_CN亦或者是en_US亦或者是de_DE,大模型都可以100%并且是“接本LOCALE地气“的方式返回成前端的LOCALE的语言,而不需要像传统的软件制作国际化那样为不同的国家定制不同的LOCALE语料(至少不用100%为不同的国家制作不同的LOCALE,对于专业名词或者是地域风俗这样一些部分才会定制不同的Native Laugnage语言包)。

参数可干涉性

是否参数足够且必要让人去干涉它在实际应用中出现的一些幻觉问题。

此处强调两个点:足够+必要

参数太多也不行的,各位想一下为什么Stable Diffusion、Midjourney、甚至是CHATGPT官网那几个参数是可以动态设置的?而且是放给用户自己去做设置?当然API调用的话这个参数更多。

但再多,会有几十页PDF这样的“接口文档”来说明吗?最多10页PDF接口参数说明就足够了。

这是因为:够用+必要。

这里面体现了一个灵活性、可控同时又掩藏了过多的底层细节便于用户调用和普及使用这么一个用意。其实这是模型是否负责任的一个体现。

Token收费:普惠性

Token收费是否便宜可以到达普惠,影响了大模型的普及程度。这个点已经不需要多说了吧?在我之前的博客《从GPT-3.5到GPT-4O:探索AI的进化之旅,哪一版更懂你?》和《基于AI的RAG需要真正面对商业化场景和落地的几大致命陷井》中有完整的对比和为什么的说明。

总知就是一个点:要足够便宜!

便宜到每千Token以“零点几分(RMB)”来记费。

  • 对于对话类来说:0.1分每一千Token我觉得已经算贵了;
  • 对于高质量需要异步处理如:洗数、打标签,不要超过2毛钱一条最好了;
  • 对于生成图片多媒体一类,5毛钱或不要超过1块钱最好;

这边捎带着说一句:很多视频Show里给各位展示出AIGC生成漂亮的图片、生动的视频,看着那叫一个激动人心啊!实际呢?

  • 一幅图:1024*1024的,收费:16元;
  • 一幅图:2048*2048的,收费:24元;
  • 抠一个背景:8元;
  • 去除一个水印:4元;
  • 如果你的提示词来一个masterpiece, ultra high resource。。。收费:不敢想像

实际是上面这么一个单价,各位开发和使用了6个月以上LLM的就知道这意味着什么概念了。。。一篇作文有时来来回回需要4-5次才能生成出质量比较好的作文。。。这样的图片或者是视频也得至少有个3-4次来回才能生成出一幅令人比较满意的作品吧?于是一次16块、一次8块。。。一个项目做完,光这些就能“蒸发”掉你上百万成本。。。




多模态识别

这儿真心我要感慨一句:唉。。。GPT4O。。。哇。。。GPT4O。。。

一个好的合格的大模型,至少要在输入时可以识别:

  • 文本内容
  • 图片内容
  • 音频
  • 视频

目前不少大模型其实只识别到文本+图片,甚至图片还是依靠OCR提取技术来做辅助,这不是多模态,这还是单模态。

多模态输出

目前不少模型具备了多模态的输入但不具备多模态的输出即GC,这是真正的GC能力了。基本都是依靠先有工具,然后用大模型通过动态生成代码来生成的而不是通过“大模型自己输出多媒体字节流”来生成的

因为只有多模态的输出才是真正决定这个模型是否具备了“手”、“脚”的能力,要不然它充其量只是一个“问答机器人”。如果是这样,那以前的神经网络或者是Robot一类的不就可以做到了,要什么大模型呢?

鲁棒性

挑选大模型产品,除了考虑其功能性、使用方便性等因素,还有一个很关键的能力,那就是大模型的“鲁棒性”。

那么,什么是鲁棒性呢?

在信息科学领域,鲁棒性是指一个系统、模型能够在输入有误或有噪声干扰的情况下,也能正常工作并产生预期的结果的能力。说了直白一些,就是大模型面对复杂变化环境,依然能稳定运行并提供准确输出反馈的能力。

那么,为什么鲁棒性这么重要,重要在哪些方面呢?

首先,拥有良好鲁棒性的大模型在面临外界环境的变化,比如输入数据的变化或噪声干扰等,能够保障模型的稳定性和适用性,减少因环境变化导致的模型误判率,提高模型对实际问题的解决能力。

其次,良好的鲁棒性还可以保障大模型的适应性和泛化能力。在现实世界中,我们面对的问题和数据都是多变和复杂的,一个鲁棒性强的大模型,能够更好地适应这种变化,对各种类型的问题都能有出色的处理和解决能力。

再者,鲁棒性也体现了大模型的健壮性和可靠性。一个鲁棒性强的大模型,不容易在外部影响下发生崩溃或输出错误,从而保障我们在使用过程中得到更稳定、更可靠的服务。

鲁棒性无疑是大模型选型时的一个关键能力。一个鲁棒性强的大模型,无论是在稳定性,适应性,还是健壮性等方面,都显示出其超群的表现。因此,在选择大模型产品时,我们一定要把这个因素纳入考量。记住,一个好的大模型,一定是一个鲁棒性强的大模型。

结尾

至此,所有的大模型选型时的核心关键点已经全部出炉呈给各位了!

你是否已经对各个方面有了全面的了解呢?比如产品的性能,它的推理能力,国际化是否被良好支持,参数是否可以适度调整,多模态的识别和输出能力如何,鲁棒性如何等。这些问题,就像购物时对商品的各个角度进行了解一样,是不可或缺的过程。

如果我们说大模型产品是一部巨型机器,那么我们就需要去详细了解每一个小零件,他们是如何互相配合,达到最优效果的。这一过程,就好比是一场精彩纷呈的科学探险,我请大家拿好手中的放大镜,结合实际生产例子,用理论+动手实践相结合才能更深入到这个神奇世界里去

好了,结束今天的博客,在下一期里我们再继续探讨这个世界的无穷奥秘吧。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/848832.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python怎么下载numpy

安装Python step1&#xff1a;官网下载安装包&#xff1b; https://www.python.org/ 我下载的是python-3.4.4.msi step2&#xff1a;python环境变量配置&#xff1b; 计算机-属性-高级系统设置-环境变量-系统变量 找到PATH&#xff0c;点击编辑&#xff0c;加英文分号;在…

【Text2SQL 论文】T5-SR:使用 T5 生成中间表示来得到 SQL

论文&#xff1a;T5-SR: A Unified Seq-to-Seq Decoding Strategy for Semantic Parsing ⭐⭐⭐ 北大 & 中科大&#xff0c;arXiv:2306.08368 文章目录 一、论文速读二、中间表示&#xff1a;SSQL三、Score Re-estimator四、总结 一、论文速读 本文设计了一个 NL 和 SQL 的…

【设计模式深度剖析】【3】【行为型】【职责链模式】| 以购物中心客户服务流程为例加深理解

&#x1f448;️上一篇:命令模式 设计模式-专栏&#x1f448;️ 文章目录 职责链模式定义英文原话直译如何理解呢&#xff1f; 职责链模式的角色1. Handler&#xff08;抽象处理者&#xff09;2. ConcreteHandler&#xff08;具体处理者&#xff09;3. Client&#xff08;客户…

【Vue】普通组件的注册使用-局部注册

文章目录 一、组件注册的两种方式二、使用步骤三、练习 一、组件注册的两种方式 局部注册&#xff1a;只能在注册的组件内使用 ① 创建 .vue 文件 (三个组成部分) 以.vue结尾的组件&#xff0c;一般也叫做 单文件组件&#xff0c;即一个组件就是组件里的全部内容 ② 在使用的组…

Qt窗口与对话框

目录 Qt窗口 1.菜单栏 2.工具栏 3.状态栏 4.滑动窗口 QT对话框 1.基础对话框QDiaog 创建新的ui文件 模态对话框与非模态对话框 2.消息对话框 QMessageBox 3.QColorDialog 4.QFileDialog文件对话框 5.QFontDialog 6.QInputDialog Qt窗口 前言&#xff1a;之前以上…

Linux驱动开发笔记(三)平台设备驱动

文章目录 前言一、Linux的设备模型1. 总线1.1 bus_type结构体1.2 注册/注销总线 2. 设备2.1 device结构体2.2 内核注册/注销设备 3. 驱动3.1 device_driver结构体3.2 注册/注销驱动 4. attribute属性文件4.1 attribute_group结构体4.2 设备属性文件4.3 驱动属性文件4.3. 总线属…

数组array 和 array的区别

问题 对于数组 array和&array有什么区别呢? 先说答案 array: 指向数组第一个数地址的指针 &array: 指向整个数组地址的指针 所以直接打印的话, 地址是一样的. 但是如果1的话, 那么array是增加sizeof(int)大小, &array是增加sizeof(int) * array.size() 测试 #i…

必应bing国内广告账户如何注册推广呢?

作为全球第二大搜索引擎&#xff0c;必应Bing以其庞大的用户基础和精准的定向能力&#xff0c;为企业提供了拓展市场的绝佳平台。对于许多企业来说&#xff0c;必应Bing广告账户的注册与推广流程可能显得复杂而繁琐。此时&#xff0c;您不妨考虑携手云衔科技&#xff0c;共同开…

程序员职业素养:AI新时代下的机遇与挑战

目录 一、引言二、程序员职业素养的五大要点1. 技术能力2. 沟通能力3. 团队合作4. 责任心5. 敬业精神 三、实际案例解析四、程序员职业素养在实际工作中的应用五、AI新时代的程序员的职业发展建议六、总结七、结语 一、引言 在当今这个科技飞速发展的时代&#xff0c;程序员这…

景区ar互动大屏游戏化体验提升营销力度

从20世纪60年代的初步构想&#xff0c;到如今全球范围内无数企业的竞相投入&#xff0c;AR增强现实技术已成为引领科技潮流的重要力量。而在这一浪潮中&#xff0c;中国的AR公司正以其独特的魅力和创新力&#xff0c;崭露头角。 中国的AR市场正在迎来前所未有的发展机遇。如今&…

将现有web项目打包成electron桌面端教程(一)vue3+vite+js版

说明&#xff1a;后续项目需要web端和桌面端&#xff0c;为了提高开发效率&#xff0c;准备直接将web端的代码打包成桌面端&#xff0c;在此提前记录一下demo打包的过程&#xff0c;需要注意的是vue2或者vue3vitets或者vue-cli的打包方式各不同&#xff0c;如果你的项目不是vue…

CasaOS玩客云如何部署小雅AList并结合内网穿透远程访问海量资源

文章目录 前言1. 本地部署AList2. AList挂载网盘3. 部署小雅alist3.1 Token获取3.2 部署小雅3.3 挂载小雅alist到AList中 4. Cpolar内网穿透安装5. 创建公网地址6. 配置固定公网地址 前言 本文主要介绍如何在安装了CasaOS的玩客云主机中部署小雅AList&#xff0c;并在AList中挂…

Ubuntu系统的k8s常见的错误和解决的问题

K8s配置的时候出现的常见问题 Q1: master节点kubectl get nodes 出现的错误 或者 解决方法&#xff1a; cat <<EOF >> /root/.bashrc export KUBECONFIG/etc/kubernetes/admin.conf EOFsource /root/.bashrc重新执行 kubectl get nodes 记得需要查看一下自己的…

【粽子大师】甜咸粽之争来看大师pick谁

概述 粽子大师是一款专门设计用来回答关于粽子制作和历史的问题的应用。无论用户是想了解甜粽还是咸粽的制作方法&#xff0c;或是希望探索粽子的地域文化差异&#xff0c;粽子大师都能提供详细的解答和指导。 功能详述 角色任务 粽子历史和文化专家: 详细了解甜咸粽子之争的…

C语言:详解gcc驱动程序完成编译、汇编、链接的过程

相关阅读 C语言https://blog.csdn.net/weixin_45791458/category_12423166.html?spm1001.2014.3001.5482 gcc是一个命令&#xff0c;严格意义上说&#xff0c;它只是一个驱动程序&#xff0c;而不是一个编译器。gcc负责调用GNU工具链中的预处理器、编译器、汇编器、链接器等工…

翻译《The Old New Thing》- What’s with this MSH_MOUSEWHEEL message?

Whats with this MSH_MOUSEWHEEL message? - The Old New Thing (microsoft.com)https://devblogs.microsoft.com/oldnewthing/20080806-00/?p21353 Raymond Chen 2008年06月06日 MSH_MOUSEWHEEL 消息是怎么回事&#xff1f; 硬件团队正在研发一种鼠标滚轮设备&#xff0c;并…

matrix-breakout-2-morpheus vulnhub靶场

端口扫描 80 81 需要用户名密码登录 目录扫描 robots.txt 妹用 找不到利用点&#xff0c;换个扫描器再扫 发现新的文件 graffiti.txt graffiti.php 输入的数据Post后会回显到页面上 抓包看看&#xff0c;居然直接传文件路径 发现我们post的数据被写入了graffiti.…

yolov5-ros模型结合zed2相机部署在 Ubuntu系统

前言 本篇文章主要讲解yolov5-ros模型结合zed2相机进行实时检测&#xff0c;经改进实现了红绿灯检测&#xff0c;并输出检测类别与置信度&#xff01; 目录 一、环境配置二、zed2驱动安装三、yolov5-ros功能包配置四、运行官方权重文件四、运行自己权重文件 一、环境配置 1、…

android睡眠分期图

一、效果图 做医疗类项目&#xff0c;经常会遇到做各种图表&#xff0c;本文做的睡眠分期图。 二、代码 引入用到的库 api joda-time:joda-time:2.10.1 调用代码 /*** 睡眠* 分期*/private SleepChartAdapter mAdapter;private SleepChartAttrs mAttrs;private List<SleepI…

不会制作企业版电子书?学会这几个步骤就好啦!

公司安排你制作一本专业的电子书&#xff0c;不知道如何下手&#xff1f;别担心&#xff0c;今天LookLook同学就来给大家分享一下如何轻松制作企业版电子书。参考这几个步骤&#xff0c;相信你一定能轻松搞定&#xff01; 第一步&#xff1a;明确电子书的目标和受众 在开始制作…