OpenAI 推迟了 ChatGPT 令人印象深刻的语音模式,这让许多 AI 聊天机器人的粉丝感到不安,但他们现在可能已经被挖走了。法国人工智能开发商 Kyutai 推出了一款名为 Moshi 的实时语音 AI 助手。
Moshi 旨在通过语音(如 Alexa 或 Google Assistant)与用户提供逼真的对话,但由 ChatGPT 及其竞争对手(在本例中为 Helium 7B 模型)背后的大型语言模型提供支持。根据 Kyutai 的说法,Moshi 可以用各种口音说话,并且有 70 种不同的情感和说话风格。AI 甚至可以同时处理两个音频流,让 Moshi 可以同时听和说话。
Kyutai 对 Moshi 的开发涉及对使用 Text-to-Speech (TTS) 技术制作的 100,000 多个合成对话进行微调。目的是帮助 Moshi 了解人类交流的细微差别和语气。该品牌甚至与专业配音师合作,以提高 Moshi 的语音质量。
这款 AI 助手集成了文本和音频训练,针对多个后端进行了优化,这意味着它可以在笔记本电脑等设备上运行,而无需与云交互。该公司将其作为通过防止敏感数据在互联网上传输来维护隐私和安全的一种方式。您可以在此处查看 Moshi 的演示。
公开对话
Kyutai 宣称 Moshi 将是一个开源项目,包括模型的代码和框架,为进一步创新奠定基础。开源方法还可能有助于减轻大型人工智能公司正在处理的有关其封闭模型的安全和道德的投诉。Kyutai 的支持者,包括法国亿万富翁 Xavier Niel,正在推动开源方法。
Kyutai 还在开发 AI 音频识别、水印和签名跟踪系统,这些系统将被整合到 Moshi 中。这些功能将有助于识别 AI 生成的音频,促进问责制和可追溯性,同时确保 AI 生成的内容可以被监控和验证。
Moshi 仍在开发中,但演示文稿中的语音模式令人印象深刻。如果 Moshi 流行起来并流行起来,这种语音方法可能会成为 ChatGPT 竞争对手其他支持语音版本的催化剂,或者加速向 Alexa 和其他语音助手添加 LLM。
https://kyutai.org/