8人团队历时半年打造开源版GPT-4o,零延迟演示引爆全网!人人可免费使用!

目录

01 Moshi

02 背后技术揭秘




GPT-4o可能要等到今年秋季才会公开。

然而,由法国8人团队开发的原生多模态Moshi,已经达到了接近GPT-4o的水平,现场演示几乎没有延迟,吸引了大量AI专家的关注。


令人惊讶的是,开源版的GPT-4o来得如此之快!
 

01 Moshi

昨晚,来自法国AI实验室kyutai的团队展示了首个实时原生多模态Moshi,效果媲美5月发布的GPT-4o。

例如,在一个演示中,Moshi作为助手帮助Alexa小哥进行太空探索,让人仿佛置身《流浪地球》中的Moss情景。


没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard




值得注意的是,这个由8人团队在仅仅半年的时间里,从零开始完成了模型的训练。


Moshi目前处于实验原型阶段,设计目的是理解和表达情感,支持听、说、看三种功能,并能够用70种不同的情绪和风格说话,甚至随时打断。

其最突出的能力是可以同时处理两个音频流,实现“听”和“说”同步进行。

这种实时互动的实现基于文本和音频混合的联合预训练,使用Helium中的合成文本数据,训练出70亿参数的模型。



Moshi的端到端延迟最低可达160ms。最小版本的Moshi还可以在笔记本电脑或消费级GPU上运行。

许多人认为这是最接近GPT-4o的模型,Moshi的惊艳表现赢得了LeCun、Karpathy等AI大佬的转发。

Moshi这个名字来源于日语中的“もしもし”(接电话时的问候语)。接下来,Patrick邀请了四位同事上台展示Moshi的强大语音能力。

02 背后技术揭秘


Moshi在技术上有哪些创新,才能具备对标GPT-4o的实力?随后,同事们介绍了当前语音AI的一些限制,例如“听”使用自动语音识别技术,“想”使用大模型,“说”使用文本-语音技术。

这些分门别类的技术会导致语音AI出现较多延迟。


他认为,最明显的事实是——GPT-4o的语音功能尚未推出,而Moshi已在发布后上线。


此外,他还提到了几个值得关注的技术要点:

  • 像kyutai这样的小型团队在6个月内构建出Moshi,表明其训练流程和架构非常简单且具有巨大的可扩展性,合成数据也起到了重要作用。
     
  • Moshi专注于本地设备的部署,这将使其迅速流行并无处不在。相比之下,像GPT这样的模型由于盈利需求,不太可能推动本地运行。
     
  • 在保持答案质量达到Llama 8B或以上水平的同时,将延迟降低到300ms以下是实现互动的关键因素。

那么,如何将这些步骤整合到单一的语音模型中呢?这正是kyutai的目标所在。

多模态Moshi不仅能够听和说,同时在语音输出时进行思考。

理论上,Moshi可以实现最低延迟为160毫秒,创造了世界新纪录。

该模型采用了I/O双通道系统,同时生成文本token和音频编解码器。

具体而言,语言模型Helium-7B首先进行从头训练,然后与文本和语音编码器联合训练。

语音编解码器基于Kyutai内部的Mimi模型,具有高达300倍的压缩系数,能够捕捉语义和声学信息。

在Moshi的微调过程中,采用了涉及100k个"口语式"合成对话的高度详细的文本记录,这些记录带有情感和风格注释,均由Helium模型转录而来。

此外,模型的语音训练还使用了另一个独立的TTS模型生成的合成数据。

模型还利用专业配音演员Alice录制了20小时的音频,并基于此进行微调。

研究人员指出,Moshi设计具有适应性,只需不到30分钟的音频即可完成微调。

在部署方面,Moshi托管在Scaleway和抱抱脸上,能够处理两个批次大小为24 GB VRAM的任务。

此外,它还支持多种后端,包括CUDA、KV缓存,并能通过Rust优化推理代码。

为确保音频安全性,Kyutai将为生成的音频加上水印,并在数据库中对其进行索引。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard

推荐阅读:

GPT-4o不仅能写代码,还能自查Bug,程序员替代进程再进一步!

GPT-4替代大学生参加考试,94%成功作弊未被发现!

CTO透露GPT-5内幕,OpenAI 以36亿美元收购数据库初创公司

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/41146.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python酷库之旅-第三方库Pandas(003)

目录 一、用法精讲 4、pandas.read_csv函数 4-1、语法 4-2、参数 4-3、功能 4-4、返回值 4-5、说明 4-6、用法 4-6-1、创建csv文件 4-6-2、代码示例 4-6-3、结果输出 二、推荐阅读 1、Python筑基之旅 2、Python函数之旅 3、Python算法之旅 4、Python魔法之旅 …

T100-XG查询报表的开发

制作XG报表 1、注册程序 azzi900 首先现将程序注册一下,在内部构建基础代码档。 2、注册作业 azzi910 也是直接新增一个,作业跟程序绑定一下。 3、T100签出规格程序 这个时候应该是没签出的,首先将规格迁出。 4、T100画面产生器 规格迁出之后,这个时候还需要生成一个画…

springcloud-gateway 网关组件中文文档

Spring Cloud网关 Greenwich SR5 该项目提供了一个基于Spring生态系统的API网关,其中包括:Spring 5,Spring Boot 2和项目Reactor。Spring Cloud网关的目的是提供一种简单而有效的方法来路由到API,并向它们提供跨领域的关注&#x…

配置基于不同IP地址的虚拟主机

定义配置文件vhost.conf <directory /www> allowoverride none require all granted </directory> <virtualhost 192.168.209.136:80> documentroot /www servername 192.168.209.136 </virtualhost><virtualhost 192.168.209.138:80> document…

Restore Equipment

Restore Equipment 魔兽世界 - 盗号申请 - 恢复装备流程 魔兽和网易真的不行啊 1&#xff09;这个装备本来就是兑换的竟然可以卖NPC 2&#xff09;针对这个情况竟然无法挽回 3&#xff09;设计理念真的不得不吐槽一下 4&#xff09;策划真的不咋样&#xff0c;要是有机会我要自…

【C++】 解决 C++ 语言报错:Stack Overflow

文章目录 引言 栈溢出&#xff08;Stack Overflow&#xff09;是 C 编程中常见且严重的错误之一。栈溢出通常发生在程序递归调用过深或分配过大的局部变量时&#xff0c;导致栈空间耗尽。栈溢出不仅会导致程序崩溃&#xff0c;还可能引发不可预测的行为。本文将深入探讨栈溢出…

Linux系统安装青龙面板结合内网穿透实现使用公网地址远程访问

文章目录 前言一、前期准备本教程环境为&#xff1a;Centos7&#xff0c;可以跑Docker的系统都可以使用。本教程使用Docker部署青龙&#xff0c;如何安装Docker详见&#xff1a; 二、安装青龙面板三、映射本地部署的青龙面板至公网四、使用固定公网地址访问本地部署的青龙面板 …

【带你全面了解 RAG,深入探讨其核心范式、关键技术及未来趋势】

文末有福利&#xff01; 大型语言模型&#xff08;LLMs&#xff09;已经成为我们生活和工作的一部分&#xff0c;它们以惊人的多功能性和智能化改变了我们与信息的互动方式。 然而&#xff0c;尽管它们的能力令人印象深刻&#xff0c;但它们并非无懈可击。这些模型可能会产生…

HY lisp quote unquote等学习

​ 宏相关语法糖 This is all resolved at the reader level, so the model that gets produced is the same whether you take your code with sugar or without. Macro Syntax quote FORM quasiquote FORM unquote ~FORM unquote-splice ~FORM unpack-iterable …

昇思25天学习打卡营第16天 | DCGAN生成漫画头像

这两天把minspore配置到我的电脑上了&#xff0c;然后运行就没什么问题了✨&#x1f60a; 今天学这个DCGAN生成漫画头像&#xff0c;我超级感兴趣的嘞&#x1f984;&#x1f970; GAN基础原理 这部分原理介绍参考GAN图像生成。 DCGAN原理 DCGAN&#xff08;深度卷积对抗生成…

秒验—手机号码置换接口

功能说明 提交客户端获取到的token、opToken等数据&#xff0c;验证后返回手机号码 服务端务必不要缓存DNS&#xff0c;否则可能影响服务高可用性 调用地址 POST https://identify-verify.dutils.com/auth/auth/sdkClientFreeLogin 请求头 Content-Type &#xff1a;appli…

图书商城系统java项目ssm项目jsp项目java课程设计java毕业设计

文章目录 图书商城系统一、项目演示二、项目介绍三、部分功能截图四、部分代码展示五、底部获取项目源码&#xff08;9.9&#xffe5;带走&#xff09; 图书商城系统 一、项目演示 图书商城系统 二、项目介绍 语言: Java 数据库&#xff1a;MySQL 技术栈&#xff1a;SpringS…

SaaS行业的AI化征程:穿越“大模型焦虑”,拥抱“AI自信”

随着大模型技术的风起云涌&#xff0c;SaaS行业正站在一个充满机遇与挑战的十字路口。本文旨在深入剖析SaaS厂商在AI化升级过程中所遭遇的“大模型焦虑”&#xff0c;并探索通过战略性的AI应用策略&#xff0c;如何重拾信心&#xff0c;实现产品与服务的华丽转身&#xff0c;为…

关于虚拟机上不了网的解决办法

先ping出ip地址 或者查询ifconfig得到目前网络信息 继续输入命令Ifconfig -a查询是否能找到ip地址 明显ens33是没有打开的&#xff0c;所以找不到分配的ip地址&#xff0c;需要打开&#xff0c;自动随机分配ip 输入命令&#xff1a; sudo dhclient ens33 现在就可以开始上网…

公司“领导”们竟如此讨论工作!小伙:此事有蹊跷;|国家漏洞库CNNVD:关于OpenSSH安全漏洞的通报;

公司“领导”们竟如此讨论工作&#xff01;小伙&#xff1a;此事有蹊跷 “当时我正在等验证码 还好你们快了一步 不然公司的93万余元就没了” 一谈到这件事 杜先生仍然心有余悸 近日 正在处理公司财务工作的杜先生 突然被拉进了一个QQ群聊 从头像、昵称上看 群聊里的竟…

累积分布函数的一些性质证明

性质1&#xff1a; E [ X ] ∫ 0 ∞ ( 1 − F ( x ) ) d x − ∫ − ∞ 0 F ( x ) d x ( 1 ) E[X]\int_0^{\infty}(1-F(x))dx - \int_{-\infty}^0F(x)dx\quad (1) E[X]∫0∞​(1−F(x))dx−∫−∞0​F(x)dx(1) 证明&#xff1a; E [ X ] ∫ − ∞ ∞ x p ( x ) d x E[X] …

SpringBoot | 大新闻项目后端(redis优化登录)

该项目的前篇内容的使用jwt令牌实现登录认证&#xff0c;使用Md5加密实现注册&#xff0c;在上一篇&#xff1a;http://t.csdnimg.cn/vn3rB 该篇主要内容&#xff1a;redis优化登录和ThreadLocal提供线程局部变量&#xff0c;以及该大新闻项目的主要代码。 redis优化登录 其实…

macOS版ChatGPT更新:修复AI对话纯文本存储问题

猫头虎 &#x1f42f; 建联猫头虎&#xff0c;商务合作&#xff0c;产品评测&#xff0c;产品推广&#xff0c;个人自媒体创作&#xff0c;超级个体&#xff0c;涨粉秘籍&#xff0c;一起探索编程世界的无限可能&#xff01; macOS版ChatGPT更新&#xff1a;修复AI对话纯文本…

JAVA高级进阶11多线程

第十一天、多线程 线程安全问题 线程安全问题 多线程给我们带来了很大性能上的提升,但是也可能引发线程安全问题 线程安全问题指的是当个多线程同时操作同一个共享资源的时候,可能会出现的操作结果不符预期问题 线程同步方案 认识线程同步 线程同步 线程同步就是让多个线…

内网渗透学习-杀入内网

1、靶机上线cs 我们已经拿到了win7的shell&#xff0c;执行whoami&#xff0c;发现win7是administrator权限&#xff0c;且在域中 执行ipconfig发现了win7存在内网网段192.168.52.0/24 kali开启cs服务端 客户端启动cs 先在cs中创建一个监听器 接着用cs生成后门&#xff0c;记…