大模型产品层出不穷,如何慧眼识珠?

先预祝亲爱的读者们“端午安康“

大模型百花齐放,选择难上加难

面对眼前层出不穷的大模型产品,许多人会不禁感到困惑:哪个才是真正适合自己的爆款大模型?在中国本土 alone,就有百来个大模型产品,简直是五花八门,令人眼花缭乱。每个都标榜自己的优势,声称自己是业界翘楚。但我们如何能看穿这些华丽的外包装,找出真正能满足我们需求的那款大模型呢?

首先,我们要明白看待大模型不能只盲听其自夸,只看它们如TV Show、广告、宣传,预告片一样的宣传片。这只是最表面的一层,我们要深入其中,理性地分析每个模型的科学性、可信性和可用性。

要想选出性能优越、价格合理的大模型产品,我们需要考虑的因素有很多。

  1. 性能,性能肯定是第一位的,没有出色的性能,模型即使包装再漂亮,也只是耍花枪,玩具。
  2. 长文本处理能力,也是一个关键的标准,只有这样才能满足在各种场景下处理、分析大量数据的需求。
  3. 理解能力推理能力
  4. 国际化支持是否友好
  5. 参数可干涉性
  6. Token收费情况
  7. 多模态的识别与输出
  8. 鲁棒性

这些都是对一个大模型是否可用的核心关键指标,对模型的选择有直接影响。

但是,对于一般大众来说,以上这些技术指标很难完全理解。

没关系,其实选型大模型就像选购商品一样,我们需要看的是它的“性价比”

  • 性能就好比商品的质量;
  • 长文本处理能力就像是容量大小;
  • 理解能力和推理能力好比是商品的使用便捷程度;
  • 友好的国际化支持就像售后服务;
  • 参数干涉性则类似产品的可自定义程度;
  • Token收费情况就是价格;
  • 多模态的识别与输出就是商品的附加功能;
  • 鲁棒性好比产品的安全性;

为了选出适合自己的大模型,我们需要综合考虑这些因素。实际上,这些都是大模型性能的“八大金刚”,缺一不可。每一个都可能影响到大模型的最后落地效果。

在这众多的大模型产品之中,我相信,只要你扔掉“看广告选商品”的思维,学会独立思考,多角度,多方位的去理解和考虑,那么你一定能选出最适合你的那款大模型。

下面就带大家具体来了解这“八大金刚”。

性能:单次来回速度

当应用开发落地时,一个“业务闭环”完成了,一个RAG通过大约300个字的猫娘(系统角色设定)脚本框定住了AI的“角色”和相关的在垂直领域的反映+一次RAG选出来10条数据+用户的提示,大约这么一组数据在1000个英语字母(包括汉字)一次发给LLM,等了5秒以后它才返回。

这个体验可是受不了的,因为>5秒后的HTTP响应让你会有在手机端或者是PC侧有一个明显的“等待”的体验。这可咋办?前面硬件已经7位数耗掉了,现在这个体验跟不上。

这才10条数据啊,这猫娘脚本可不能无限再精减下去,没有了猫娘脚本的设定这个系统是要出问题的,网上的例子都是小于200字的猫娘那些全部没有一个可以实际生产落地的最多用来玩一下的如:hello world。这这这。。。这没法用啊。

生产级的RAG在我之前的博客中都已经写过了,往往是:

  • 发送出去:猫娘+提示+历史会话=1,400Token;
  • 回答:800-1,200 Token;

各位,看到这,我可以给出大家对于性能这块指标的一个识别公式了,你们不要去看TV秀、视频秀。很多模型在“秀”时,要么是调用了所有算力集中在这15分钟演示时以起到良好的体验效果,要么。。。就不多说了。不能看这些表面功夫而要看一个LLM:

如果是在MAAS情况

每秒输出多少Token?

这个就决定了你的性能。我们按照一个汉字占2.5个Token来算,各位就可以得出大约生产级别的单次来回需要多少秒(这边我可以纠正各位一个误区,当发送和响应的内容增加时即使是Stream模式,也不可能做到第一秒就开始输出第1个或者第2个字这样的水平,而也是需要10-17秒后才开始响应的过来才开始输出第一个汉字,因此不要把stream模式作为借口,这是我落地了4个大模型项目得到的血的教训)。一定要看每秒输出多少Token来作为衡量指标,直接去官网找这些指标吧。

历来博客中我也提到过,这方面GPT3.5属实最猛,生产级别应用单次会话在2,000 Token的3秒多一点点就返回了,可见其强大的能力(和算力还是有关)。

如果是在本地布署情况

在你可接受的预算范围内的硬件情况下,每秒输出是多少Token来选择。你不能拿着拥有一座水电站能力的一秒输出Token数来对比我硬件预算只有50万RMB情况下的一秒输出Token数来比吧。。。另外。。。(干咳)一个项目,一个商业项目硬件预算50万? Are you kidding me?20万已经算很好了在大部分企业落地商用大模型的情况下。不是越贵越好的,技术是赋能不是割草哈。

长文本输入能力:每次Token长度

这里面有一个坑,即一味得我们看到长文本文达到了128K、256K、512K。这块能力其实和性能是相关的。你真的扔个120K东西出去然后留8K作返回,我们来看看这个模型是怎么响应的吧:

  1. 4分之3情况下,http timeout;
  2. 4分之1情况下,50多秒才返回;

这样的模型,即使长文本到达了1GB,你能用吗?

这个东西其实是缓存一样的道理,你总不能把一整个DB存入Redis吧,你总要“切片、sharding、聚合、无损/有损压缩“吧。要不然这个实施项目太简单了,直接把一整个DB扔进Redis,那系统性能是好呀但是现实可能吗?

要结合着性能来看,目前就拿GPT Turbo 128k来说,其实它的单次响应速度很慢的。因此这时我们需要在系统和项目实施时按照“实时、跑批异步“加以区分然后有针对性的去打”组合拳“,万事不能一刀切,不能一个模式死磕到底。

理解能力

什么是理解能力?

理解能力是指它是不是真正的“听懂了”你说的话,这叫理解能力!

同样我们使用生产级别的内容来评判这个理解能力。之前的博客我提到过这么一个案例,要测就用一个实际生产级别的案例去测,不要再用什么”一颗树上7只鸟。。。“这种简单的问题去测了。下面再次给出这个案例:

猫娘

对于住房管理维修业务分为分套内和套外两种。套内(包括住房内所有电器、空调、住房内装修、住房内器具、用品、家具、住房内厨房、卫生间、洗浴等用品、住房内家内空间里的一切物品)指客户的住房内全部问题属于“A物业”公司负责。套外(包括小区、苑、园区、楼道)即客户住房外部的一切问题如:楼道、电梯、公共走廊、门厅、小区内的绿化带、停车场、健身区、儿童游乐场等共享设施,以及建筑物的外墙装饰、屋顶防水处理这些问题这些都属于“B物业”公司负责。

问题

然后用下面这个问题去问:

家里马桶坏了,找谁?

看它回答对不对。

推理能力

推理能力决定了大模型在复杂问题上的表现。怎么测呢,需要用至少3个维度的推理去测和验证,比如说这么一个问题:

你是XXXX商户的美食在线接单后派送服务机器人。
你现在收到了用户的一个派单请求,请你判断:
1. 用户当前的位置在你的服务位置/范围内,如果是,canService返回1否则返回0;
2. 用户当前发送的内容不是定位请求,如果是定位请求validRequest返回1否则返回0;
3. 用户当前的派单是否在你的营业时间<%serviceTime%>范围内,是那么返回todayDelivery为1否则返回0;

实际生产中还有不少其它因素,甚至还有上下文、角色定义混在一起的这么一个判断,差不多去+回在1,400 Token,3层判断,然后我们测10次看10次返回的结果是否都达到了100%准确来做判断;

国际化支持

对国际化支持是否够好,决定了大模型的适用范围。一般一个良好的大模型应该具备这样的能力:

语料(即知识库、向量库或者说叫embedding库)只有一种语言时,前端通过切换LOCALE为: zh_CN亦或者是en_US亦或者是de_DE,大模型都可以100%并且是“接本LOCALE地气“的方式返回成前端的LOCALE的语言,而不需要像传统的软件制作国际化那样为不同的国家定制不同的LOCALE语料(至少不用100%为不同的国家制作不同的LOCALE,对于专业名词或者是地域风俗这样一些部分才会定制不同的Native Laugnage语言包)。

参数可干涉性

是否参数足够且必要让人去干涉它在实际应用中出现的一些幻觉问题。

此处强调两个点:足够+必要

参数太多也不行的,各位想一下为什么Stable Diffusion、Midjourney、甚至是CHATGPT官网那几个参数是可以动态设置的?而且是放给用户自己去做设置?当然API调用的话这个参数更多。

但再多,会有几十页PDF这样的“接口文档”来说明吗?最多10页PDF接口参数说明就足够了。

这是因为:够用+必要。

这里面体现了一个灵活性、可控同时又掩藏了过多的底层细节便于用户调用和普及使用这么一个用意。其实这是模型是否负责任的一个体现。

Token收费:普惠性

Token收费是否便宜可以到达普惠,影响了大模型的普及程度。这个点已经不需要多说了吧?在我之前的博客《从GPT-3.5到GPT-4O:探索AI的进化之旅,哪一版更懂你?》和《基于AI的RAG需要真正面对商业化场景和落地的几大致命陷井》中有完整的对比和为什么的说明。

总知就是一个点:要足够便宜!

便宜到每千Token以“零点几分(RMB)”来记费。

  • 对于对话类来说:0.1分每一千Token我觉得已经算贵了;
  • 对于高质量需要异步处理如:洗数、打标签,不要超过2毛钱一条最好了;
  • 对于生成图片多媒体一类,5毛钱或不要超过1块钱最好;

这边捎带着说一句:很多视频Show里给各位展示出AIGC生成漂亮的图片、生动的视频,看着那叫一个激动人心啊!实际呢?

  • 一幅图:1024*1024的,收费:16元;
  • 一幅图:2048*2048的,收费:24元;
  • 抠一个背景:8元;
  • 去除一个水印:4元;
  • 如果你的提示词来一个masterpiece, ultra high resource。。。收费:不敢想像

实际是上面这么一个单价,各位开发和使用了6个月以上LLM的就知道这意味着什么概念了。。。一篇作文有时来来回回需要4-5次才能生成出质量比较好的作文。。。这样的图片或者是视频也得至少有个3-4次来回才能生成出一幅令人比较满意的作品吧?于是一次16块、一次8块。。。一个项目做完,光这些就能“蒸发”掉你上百万成本。。。




多模态识别

这儿真心我要感慨一句:唉。。。GPT4O。。。哇。。。GPT4O。。。

一个好的合格的大模型,至少要在输入时可以识别:

  • 文本内容
  • 图片内容
  • 音频
  • 视频

目前不少大模型其实只识别到文本+图片,甚至图片还是依靠OCR提取技术来做辅助,这不是多模态,这还是单模态。

多模态输出

目前不少模型具备了多模态的输入但不具备多模态的输出即GC,这是真正的GC能力了。基本都是依靠先有工具,然后用大模型通过动态生成代码来生成的而不是通过“大模型自己输出多媒体字节流”来生成的

因为只有多模态的输出才是真正决定这个模型是否具备了“手”、“脚”的能力,要不然它充其量只是一个“问答机器人”。如果是这样,那以前的神经网络或者是Robot一类的不就可以做到了,要什么大模型呢?

鲁棒性

挑选大模型产品,除了考虑其功能性、使用方便性等因素,还有一个很关键的能力,那就是大模型的“鲁棒性”。

那么,什么是鲁棒性呢?

在信息科学领域,鲁棒性是指一个系统、模型能够在输入有误或有噪声干扰的情况下,也能正常工作并产生预期的结果的能力。说了直白一些,就是大模型面对复杂变化环境,依然能稳定运行并提供准确输出反馈的能力。

那么,为什么鲁棒性这么重要,重要在哪些方面呢?

首先,拥有良好鲁棒性的大模型在面临外界环境的变化,比如输入数据的变化或噪声干扰等,能够保障模型的稳定性和适用性,减少因环境变化导致的模型误判率,提高模型对实际问题的解决能力。

其次,良好的鲁棒性还可以保障大模型的适应性和泛化能力。在现实世界中,我们面对的问题和数据都是多变和复杂的,一个鲁棒性强的大模型,能够更好地适应这种变化,对各种类型的问题都能有出色的处理和解决能力。

再者,鲁棒性也体现了大模型的健壮性和可靠性。一个鲁棒性强的大模型,不容易在外部影响下发生崩溃或输出错误,从而保障我们在使用过程中得到更稳定、更可靠的服务。

鲁棒性无疑是大模型选型时的一个关键能力。一个鲁棒性强的大模型,无论是在稳定性,适应性,还是健壮性等方面,都显示出其超群的表现。因此,在选择大模型产品时,我们一定要把这个因素纳入考量。记住,一个好的大模型,一定是一个鲁棒性强的大模型。

结尾

至此,所有的大模型选型时的核心关键点已经全部出炉呈给各位了!

你是否已经对各个方面有了全面的了解呢?比如产品的性能,它的推理能力,国际化是否被良好支持,参数是否可以适度调整,多模态的识别和输出能力如何,鲁棒性如何等。这些问题,就像购物时对商品的各个角度进行了解一样,是不可或缺的过程。

如果我们说大模型产品是一部巨型机器,那么我们就需要去详细了解每一个小零件,他们是如何互相配合,达到最优效果的。这一过程,就好比是一场精彩纷呈的科学探险,我请大家拿好手中的放大镜,结合实际生产例子,用理论+动手实践相结合才能更深入到这个神奇世界里去

好了,结束今天的博客,在下一期里我们再继续探讨这个世界的无穷奥秘吧。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/848832.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于openssl实现AES ECB加解密

AES加密&#xff0c;全称高级加密标准&#xff08;Advanced Encryption Standard&#xff09;&#xff0c;是一种广泛使用的对称加密算法&#xff0c;用于保护电子数据的安全。以下是AES加密的基本原理和特点&#xff1a; 基本概念 对称加密&#xff1a;AES是一种对称加密算法…

Opengrok代码在线查看平台

OpenGrok 是一个基于 Web 的源代码搜索引擎和交叉引用工具&#xff0c;它可以用来浏览和搜索代码库。虽然 OpenGrok 提供了代码搜索、查看文件和历史等功能&#xff0c;但它本身不是一个完整的在线集成开发环境&#xff08;IDE&#xff09;。然而&#xff0c;OpenGrok 可以作为…

网络科技时代的崛起:十个网站链接深度解读

在当下这个信息化、网络化飞速发展的时代&#xff0c;网络科技已经渗透到我们生活的方方面面。从信息传递、教育培训&#xff0c;到企业管理、城市生活&#xff0c;网络科技以其独特的魅力和无限的可能性&#xff0c;正在引领我们进入一个全新的世界。今天&#xff0c;我们就通…

python怎么下载numpy

安装Python step1&#xff1a;官网下载安装包&#xff1b; https://www.python.org/ 我下载的是python-3.4.4.msi step2&#xff1a;python环境变量配置&#xff1b; 计算机-属性-高级系统设置-环境变量-系统变量 找到PATH&#xff0c;点击编辑&#xff0c;加英文分号;在…

【Text2SQL 论文】T5-SR:使用 T5 生成中间表示来得到 SQL

论文&#xff1a;T5-SR: A Unified Seq-to-Seq Decoding Strategy for Semantic Parsing ⭐⭐⭐ 北大 & 中科大&#xff0c;arXiv:2306.08368 文章目录 一、论文速读二、中间表示&#xff1a;SSQL三、Score Re-estimator四、总结 一、论文速读 本文设计了一个 NL 和 SQL 的…

【设计模式深度剖析】【3】【行为型】【职责链模式】| 以购物中心客户服务流程为例加深理解

&#x1f448;️上一篇:命令模式 设计模式-专栏&#x1f448;️ 文章目录 职责链模式定义英文原话直译如何理解呢&#xff1f; 职责链模式的角色1. Handler&#xff08;抽象处理者&#xff09;2. ConcreteHandler&#xff08;具体处理者&#xff09;3. Client&#xff08;客户…

PostgreSQL 17新特性之分区拆分与合并

PostgreSQL 17 增强了分区管理功能&#xff0c;支持分区的拆分以及合并&#xff0c;同时支持分区表的标识列以及排除约束功能。 本文给大家介绍一下新增的分区拆分&#xff08;ALTER TABLE … SPLIT PARTITION …&#xff09;和分区合并&#xff08;ALTER TABLE … MERGE PART…

【Vue】普通组件的注册使用-局部注册

文章目录 一、组件注册的两种方式二、使用步骤三、练习 一、组件注册的两种方式 局部注册&#xff1a;只能在注册的组件内使用 ① 创建 .vue 文件 (三个组成部分) 以.vue结尾的组件&#xff0c;一般也叫做 单文件组件&#xff0c;即一个组件就是组件里的全部内容 ② 在使用的组…

分享一款提取抖音小店商家电话的软件使用教程

抖音作为一款国内非常流行的短视频分享平台&#xff0c;吸引了大量用户和商家。许多商家在抖音上开设了小店&#xff0c;但是抖音并没有提供直接获取商家电话的功能。本文将分享一款提取抖音小店商家电话的软件&#xff0c;并附带使用教程和代码。 教程 步骤一&#xff1a;安…

Qt窗口与对话框

目录 Qt窗口 1.菜单栏 2.工具栏 3.状态栏 4.滑动窗口 QT对话框 1.基础对话框QDiaog 创建新的ui文件 模态对话框与非模态对话框 2.消息对话框 QMessageBox 3.QColorDialog 4.QFileDialog文件对话框 5.QFontDialog 6.QInputDialog Qt窗口 前言&#xff1a;之前以上…

自定义指令:Vue允许注册全局或组件级的自定义指令,以实现对常规DOM元素的复杂操作

简介 Vue自定义指令的概念 在Vue.js中,指令(Directives)是一些预定义的特殊属性,它们以v-为前缀,用于对DOM元素进行一些特殊的操作。而自定义指令则是用户自己定义的一种特殊功能,它可以像Vue内置的指令一样使用,以达到复用和模块化的目的。 自定义指令提供了一种机制,…

单双目视频转图片

视频转图片 视频转图片 输入文件夹路径&#xff0c;里面时mp4视频 输出的是每隔1秒提取到的视频帧 interval是每隔多少秒保存一张图片 import cv2 import osimg_count 1def save_frames(video_path, output_folder, interval):# 创建保存图片的文件夹if not os.path.exists(ou…

Linux驱动开发笔记(三)平台设备驱动

文章目录 前言一、Linux的设备模型1. 总线1.1 bus_type结构体1.2 注册/注销总线 2. 设备2.1 device结构体2.2 内核注册/注销设备 3. 驱动3.1 device_driver结构体3.2 注册/注销驱动 4. attribute属性文件4.1 attribute_group结构体4.2 设备属性文件4.3 驱动属性文件4.3. 总线属…

数组array 和 array的区别

问题 对于数组 array和&array有什么区别呢? 先说答案 array: 指向数组第一个数地址的指针 &array: 指向整个数组地址的指针 所以直接打印的话, 地址是一样的. 但是如果1的话, 那么array是增加sizeof(int)大小, &array是增加sizeof(int) * array.size() 测试 #i…

printf(“不喝酒就没得朋友可是只要偶一喝酒就喝倒一代朋友人生真的很矛盾“);

/*无线通讯语言模块测试PAST 2019 12 28 L298 CODE1871**/ #include <REG52.H> #include <intrins.H> #include "stdio.h" #define uint unsigned int #defi…

必应bing国内广告账户如何注册推广呢?

作为全球第二大搜索引擎&#xff0c;必应Bing以其庞大的用户基础和精准的定向能力&#xff0c;为企业提供了拓展市场的绝佳平台。对于许多企业来说&#xff0c;必应Bing广告账户的注册与推广流程可能显得复杂而繁琐。此时&#xff0c;您不妨考虑携手云衔科技&#xff0c;共同开…

一篇文章告诉你为什么要考TOGAF证书?

TOGAF&#xff08;The Open Group Architecture Framework&#xff09;是一种被广泛应用于企业架构领域的框架和方法论。TOGAF证书作为对TOGAF知识体系的认可架构师群体中受喜爱。本文将探讨为什么TOGAF证书如此受欢迎&#xff0c;并解释其在企业架构中的重要性。 TOGAF证书的…

程序员职业素养:AI新时代下的机遇与挑战

目录 一、引言二、程序员职业素养的五大要点1. 技术能力2. 沟通能力3. 团队合作4. 责任心5. 敬业精神 三、实际案例解析四、程序员职业素养在实际工作中的应用五、AI新时代的程序员的职业发展建议六、总结七、结语 一、引言 在当今这个科技飞速发展的时代&#xff0c;程序员这…

景区ar互动大屏游戏化体验提升营销力度

从20世纪60年代的初步构想&#xff0c;到如今全球范围内无数企业的竞相投入&#xff0c;AR增强现实技术已成为引领科技潮流的重要力量。而在这一浪潮中&#xff0c;中国的AR公司正以其独特的魅力和创新力&#xff0c;崭露头角。 中国的AR市场正在迎来前所未有的发展机遇。如今&…

AI时代的浪潮

随着科技的飞速发展&#xff0c;人工智能&#xff08;AI&#xff09;已经从科幻概念变为现实&#xff0c;深刻地影响着我们的工作和生活。在这个AI时代&#xff0c;我们将通过十个具有代表性的网站链接&#xff0c;一同探索AI技术的广泛应用和未来发展。 一、AI与人力资源管理…