最火AI角色扮演流量已达谷歌搜索20%!每秒处理2万推理请求,Transformer作者公开优化秘诀

卡奥斯智能交互引擎是卡奥斯基于海尔近40年工业生产经验积累和卡奥斯7年工业互联网平台建设的最佳实践,基于大语言模型和RAG技术,集合海量工业领域生态资源方优质产品和知识服务,旨在通过智能搜索、连续交互,实时生成个性化的内容和智能化产品推荐,为用户提供快速、可靠的交互式搜索服务,首创了聚焦工业领域的智能交互引擎。

详情戳:卡奥斯智能交互引擎icon-default.png?t=N7T8https://datayi.cn/w/DPWgDgjP

什么AI应用每秒处理20000个AI推理请求,达到2024年谷歌搜索流量的1/5

答案是独角兽Character.ai,由Transformer作者Noam Shazeer(后面简称沙哥)创办。

刚刚,沙哥公布了推理优化独门秘诀,迅速引起业界热议。

图片

具体来说Character.ai在整个服务堆栈中实现了如下成绩:

  • 内存高效架构设计:将KV缓存大小减少20倍以上,而不会降低质量

  • Attention状态缓存:95%请求无需重算

  • 直接用in8精度量化训练:推理零损失还省显存

Character.AI通过以上种种优化,已经把推理成本降低到最初的1/33,如果用市场上最好的商业API来支撑这种级别的流量,成本会比现在高出13.5倍!

众多公布的方法中,原生int8训练是最受关注的。

图片

虽然大多数技巧都来自公开研究,但是正如网友所说,知道如何把它们高效整合在一起实现的团队才是真正的护城河。

图片

秘诀1:高效利用显存,attention 参数量降低20倍

大模型的一大痛点是显存占用高,导致无法支持大批量推理。Attention 层中的 Key-Value(KV)缓存便是罪魁祸首之一。

为了降低显存占用,Character.AI在Attention层大动手术:

  • 全面采用MQA(Multi-Query Attention)

与大多数开源模型中采用的GQA(Grouped-Query Attention)相比,将KV缓存大小减少了 8 倍。

而MQA正是沙哥本人2019年在谷歌期间提出的,有网友评价“当一个人能在生产环境中引用自己的论文,就达到了一个新的高度”。

图片
  • 混合注意力视野

将局部注意力与全局注意力层交织在一起,使用滑动窗口训练局部注意力,将复杂度从 O(length^2 ) 降低到 O(length)。

团队发现,将大多数注意力层的注意力范围减少到1024不会对评估指标产生重大影响,包括长上下文大海捞针基准。在Character.ai生产模型中,每6层中只有1层使用全局注意力

  • 跨层KV共享

团队将KV缓存绑定在相邻的注意力层上,这进一步将 KV缓存大小减少了 2-3 倍。

对于全局注意力,跨块绑定多个全局层的KV缓存,因为全局注意力层在长上下文用例中主导KV缓存大小,团队发现跨层共享KV不会降低质量。

下图中左半部分是标准Transformer设计,每个注意力都是全局注意力。右半部分为Character.ai的设计,蓝色框表示全局注意力,绿色框表示局部注意力,连线表示KV共享。

图片

这一套组合拳下来,KV缓存大小减少20倍以上,显存再也不是瓶颈了。

秘诀2:巧用状态缓存,95%请求无需重算

Character.AI还有一招神来之笔,就是在不同对话之间缓存Attention状态

作为聊天机器人角色扮演服务,Character.AI上大部分对话都是连续多轮的,平均每个对话包含180条消息。如果每次都要重新计算前面的状态,成本可想而知。

于是团队设计了一个缓存机制,把每个对话的Prefix和生成的消息都缓存在内存中,供后续调用。

借鉴RadixAttention的思路,树状结构的LRU缓存组织缓存的KV张量。缓存的KV值由前缀token的Rolling Hash速检索最长匹配的缓存,即使前缀只有部分匹配也能命中。

更妙的是,他们还用会话保持(Sticky Session)把同一对话路由到同一个服务器,进一步提高缓存命中率。最终做到95%的请求都能复用已有缓存,大幅降低了计算成本。

下图中,蓝色框表示主机内存上的缓存张量。绿色和黄色框表示CUDA内存上的KV缓存。当新查询到达时,它检索最长匹配前缀的KV缓存,Rolling Hash系统允许检索部分匹配消息的缓存。

图片

秘诀3:直接量化训练,推理零损失还省显存

最后一招,Character.AI没有采用常见的“训练后量化”,而是直接用Int8精度训练模型

这种格式虽然表达精度降低,但通过精心设计定制的矩阵乘和 Attention 内核,不仅把训练效率提高了好几倍,而且还能无损用于推理。

不过沙哥在这里暂时留了一手,表示“量化训练本身就是一个复杂的话题,将在以后的文章中继续讨论。”

沙哥其人

最后再来介绍一下传奇人物Noam Shazeer本人。

图片

他1994年拿了信息学奥赛IOI金牌,后来毕业于杜克大学。

2000年加入谷歌,当时全公司只有200人左右,他参与了谷歌搜索的拼写纠正功能,后来也负责过早期广告系统。

据知情人透露,在当初面试谷歌时,沙哥就被问到如何实现拼写纠正。他描述了一种根据其他用户的输入输入记录,进行统计验证的方法。

面试官Gmail之父Paul Buchheit意识到,沙哥的方案比谷歌当时使用的要好。沙哥成功入职之后就把他的面试方案写出来了。

图片

在Transformer开山之作《Attention is All You Need》研究中,沙哥最后一个加入团队,一来就负责重新编写了整个代码。

在沙哥出手之前,Transformer早期原型性能并没有超越当时流行的LSTM方案,是他把早期设计中的卷积等模块都拿掉,给出了一个极简主义方案。最终破了BLEU测试的记录,同时计算效率也更高。

队友用“他是一个巫师”来评价他的工程和代码能力。

除此之外,沙哥还有惊人的远见。在Transformer架构问世不久,他就给谷歌高层写信,提议公司放弃整个搜索索引,并用Transformer架构训练一个巨大的神经网络替代。

2021年,沙哥离开谷歌后创办了Character.AI,让玩家简单自创个性化AI陪聊,目前估值约50亿美元。

图片

最近有消息称,Meta与马斯克的𝕏都在争取与他们合作,把聊天机器人引入社交平台。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/31581.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Qt制作程序启动界面类QSplashScreen实例测试详解

目录 一、QSplashScreen的概述 二、QSplashScreen静态图片加载 1、主程序实现 2、mainwindow.h实现 3、mainwindows.cpp实现 三、QSplashScreen动态图片加载 1、主程序实现 2、mainwindow.h实现 3、mainwindows.cpp实现 一、QSplashScreen的概述 QSplashScreen&#x…

揭秘Xinstall如何助力App推广,提升用户量与转化率双指标!

在移动互联网时代,App的推广与运营成为了每个开发者必须面对的重要课题。然而,推广效果的评估和优化往往令众多开发者头疼不已。今天,我们将为您揭秘一款能够解决这一痛点的利器——Xinstall,带您一起探讨它如何助力App推广&#…

ARM32开发--存储器介绍

知不足而奋进 望远山而前行 目录 文章目录 前言 存储器分类 RAM ROM EEPROM Flash 总结 前言 在现代计算机系统中,存储器扮演着至关重要的角色,不仅影响着数据的存取速度和稳定性,还直接关系到计算机系统的性能和应用场景的选择。存…

密码CTF(4)——e和phi不互素

参考 RSA中e和phi不互素 AMM算法 AMM算法简要理解 RSA系列解题研究——e与phi不互素 - 先知社区 (aliyun.com) e与phi不互素 --- 四 1 1 1道题详记-CSDN博客 总述 gcd(e,φ(n))比较小时可以考虑iroot直接开根,当直接开根跑不出来时,考虑有限域…

redis哨兵模式下业务代码连接实现

目录 一:背景 二:实现过程 三:总结 一:背景 在哨兵模式下,真实的redis服务地址由一个固定ip转变为可以变化的ip,这样我们业务代码在连接redis的时候,就需要判断哪个主redis服务地址,哪个是从…

文件上传漏洞-上篇

一、概述 文件上传漏洞可以说是日常渗透测试中用得最多的一个漏洞,用它获得服务器权限最快最直接。在web程序中,经常需要用到文件上传的功能。如用户或者管理员上传图片,或者其它文件。如果没有限制上传类型或者限制不严格被绕过&#xff0c…

大数据学习-Hive

介绍 分布式 SQL 计算 做数据的统计分析,SQL 是最方便的工具 在大数据中,有很多的统计分析场景,那么 SQL 来处理大数据是非常合适且频繁的 以后可能就是 SQL Boy 了,所以学习前需要有 MySQL 的基础 Hive 的功能 是一个分布式…

【软件测试入门】测试用例经典设计方法 — 因果图法

🍅 视频学习:文末有免费的配套视频可观看 🍅 点击文末小卡片 ,免费获取软件测试全套资料,资料在手,涨薪更快 一、因果图设计测试用例的步骤 1、分析需求 阅读需求文档,如果User Case很复杂&am…

电商项目测试实战之购物车页面用例设计

🍅 视频学习:文末有免费的配套视频可观看 🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 一、购物车页面 二、购物车页面测试范围列表 三、购物车页面功能点需求分析 四、部分功能点的测试…

vscode CMAKE 配置调试

概述 记录使用VSCODE中的CMAKE拓展构建项目时出现的报错 CMakePresets.json: {"version": 6,"configurePresets": [{"name": "x64-debug","displayName": "x64-debug","cmakeExecutable":…

Hi3861 OpenHarmony嵌入式应用入门--中断按键

本篇讲解gpio的中断使用方式。 硬件原理图如下,与上一篇一样的电路 GPIO API API名称 说明 hi_u32 hi_gpio_init(hi_void); GPIO模块初始化 hi_u32 hi_io_set_pull(hi_io_name id, hi_io_pull val); 设置某个IO上下拉功能。 hi_u32 hi_gpio_set_dir(hi_gpio_…

cefsharp 修改请求头request.Headers,以实现某种请求验证(v100+已测试)含主要源码和注释

(一)目的:cefsharp实现修改请求头 Tip:网上搜的很多代码都无法实现(要么版本较低,方法有变,要么就行不通),较多的错误是:集合属性只读。其中一个bili网友的测试方法注解一张图,但没有具体代码。参考一下。 (二)实现方法 2.1 创建对象 ChromiumWebBrowser home…

数据库精选题(二)(引言+关系代数)

🌈 个人主页:十二月的猫-CSDN博客 🔥 系列专栏: 🏀数据库 💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光 目录 前言 常见概念 一、什么是数据库&#xf…

神舟电脑怎么清理缓存文件?介绍几种简单有效方法

随着日常使用神舟电脑的时间增长,各种缓存文件、临时文件以及无用的数据会逐渐堆积,这不仅占据了宝贵的磁盘空间,还可能拖慢系统的运行速度,影响我们的使用体验。因此,定期清理神舟电脑中的缓存文件变得至关重要。本文…

Vue3插件安装

一、volar插件安装 volar:Vue文件的语法提示和高亮提醒。volar已经更名为Vue - Official,其安装步骤如下。 (1)打开vscode,点击扩展面板,在搜索窗口中输入volar,选择Vue - Official进行安装。 (2&#xff0…

如何使用gprof对程序进行性能分析

如何使用gprof对程序进行性能分析 目录 1 gprof概述 2 gprof原理简述 3 gprof使用 3.1 gprof使用简述 3.2 gprof使用示例 4 小结 1 gprof概述 gprof 是 一个 GNU 的程序性能分析工具,可以用于分析C\C程序的执行性能。gprof工具可以统计出各个函数的调用次数、执…

什么是 vCPU?有什么作用

vCPU 是物理 CPU 的虚拟化版本,是云计算的基本组成部分。这些虚拟化计算单元的一大优势是其良好的可扩展性,这也是它们在云托管中发挥重要作用的原因。 vCPU 有什么作用? vCPU(虚拟中央处理器)是物理CPU的虚拟化变体。换句话说,vCPU 是虚拟机…

邀请函 | 桥田智能出席AMTS展会 家族新成员正式发布

作为国际汽车制造技术与装备及材料专业展览会,AMTS将于2024年7月3-5日在上海新国际博览中心举行。本届展会以【向“新”而行 “智”领未来】为主题,聚焦汽车及新能源全产业链,围绕“车身工程、部件工程、新能源三电工程及未来汽车开发”等技…

重塑W来|暴雨携手英特尔®单路最强“芯”加速数智创新应用

近日,极“至”能,重塑“W”来—英特尔单路最强“芯”XeonW 方案研讨会在贵阳成果举办,行业精英们共聚一堂,了解Xeon W处理器的最新进展、卓越性能和多元应用场景,并针对最新的行业趋势、技术创新以及战略规划进行深入…

90 岁老人靠一辆自行车年赚 170 亿,捷安特如何打造山地车极致产品力?

一位富家小开在中年时经商失败,38岁时从零开始创业,最终在自行车整车市场占据了70%的份额,他是怎么做到的? 一家曾为美国自行车品牌代工的台湾工厂,成功从ToB转型为ToC业务,从90%的代工业务转变为全球最大…