ASR+LLM+TTS在新能源汽车中的实战

ASR+LLM+TTS在新能源汽车中的实战解决方案,已经在路面上大规模应用,下面简单介绍一下:

实战案例

以下是一些国内新能源车机里 ASR+LLM+TTS 的案例:

  1. 蔚来
    • 蔚来的车机系统在智能语音交互方面有较为出色的应用。其 ASR 技术能够准确识别车主的语音指令,即使在车内有一定背景噪音的情况下,也能保持较高的识别准确率。例如,车主说“导航到最近的充电站”,系统可以快速准确地识别该语音指令。
    • 通过 LLM 对指令进行理解和分析,车机系统能理解指令的意图,不仅可以准确导航到最近的充电站,还能根据车辆当前的电量、路况等信息,提供最佳的充电方案建议。
    • TTS 技术则将系统的反馈信息以清晰自然的语音播报给车主,让车主在驾驶过程中无需分心查看屏幕,就能获取所需信息,提高了驾驶的安全性和便捷性。
  2. 小鹏
    • 小鹏汽车的车机语音助手也应用了 ASR+LLM+TTS 技术。在语音识别方面,它可以识别多种方言和不同的语速、语调,满足不同地区用户的使用需求。比如,用户用带有地方口音的普通话发出指令“打开车窗”,系统能够准确识别。
    • 借助 LLM 的强大理解能力,车机系统可以处理复杂的指令和问题。例如,用户问“明天天气怎么样,我适合开车去海边吗”,系统会先通过网络获取明天的天气信息,然后根据天气情况和车辆的相关信息(如续航里程、周边充电桩分布等)进行综合分析,给出是否适合开车去海边的建议。
    • TTS 语音合成的效果自然流畅,声音富有亲和力,让用户在与车机交互时感觉更加舒适。
  3. 理想
    • 理想汽车的车机系统同样具备优秀的语音交互功能。ASR 技术可以快速识别用户的语音指令,无论是控制车辆的功能(如调节空调温度、打开座椅加热等),还是获取信息(如查询股票行情、播放音乐等),都能准确识别。
    • 通过 LLM 的深度理解,车机系统能够根据用户的习惯和偏好提供个性化的服务。例如,如果用户经常在下班后开车回家的路上听某一类型的音乐,系统会在相应的时间自动推荐类似的音乐。
    • TTS 的语音播报清晰准确,能够及时将系统的处理结果反馈给用户,让用户随时了解车辆的状态和相关信息。
      以下是国内新能源车机里其他的 ASR+LLM+TTS 案例:
  4. 埃安
    • 广汽埃安的部分车型在车机系统中也应用了相关技术。其 ASR 系统能够准确识别车主的语音指令,无论是在日常驾驶过程中对导航、音乐、空调等功能的控制,还是查询车辆的状态信息等,都能快速响应。通过 LLM 对指令进行深度理解和分析,比如当车主说“我有点冷”,系统会理解其意图并自动调节空调温度。TTS 技术则为车主提供清晰的语音反馈,告知操作是否成功或提供相关的信息提示。
  5. 哪吒
    • 哪吒汽车的车机智能语音交互系统也运用了 ASR+LLM+TTS 技术。在语音识别方面,能够适应不同的口音和语言习惯,提高了语音交互的准确性和便捷性。借助 LLM 的能力,车机可以理解复杂的语义,例如当车主询问“附近有哪些评分高的餐厅并且有充电桩”这样的综合问题时,系统可以准确分析并给出合适的答案。TTS 的语音合成效果自然,让车主在驾驶过程中能够轻松获取信息。
  6. 威马
    • 威马汽车的车机系统同样具备类似的功能。ASR 技术可以快速准确地识别语音指令,无论是简单的操作指令还是较为复杂的查询请求。通过与 LLM 的结合,车机能够智能地理解用户的需求,例如在导航时,用户可以说“避开拥堵路段,找一条风景好的路线去目的地”,系统会根据实时交通信息和地图数据进行规划。TTS 技术则将导航信息等以语音的形式播报给用户,方便用户在驾驶过程中获取信息。
  7. 比亚迪
    • 比亚迪的部分高端新能源车型也在不断强化智能语音交互功能。其 ASR 技术可以准确识别多种语言和方言,方便不同地区的用户使用。LLM 技术能够对用户的指令进行深度理解,比如用户说“我明天要去接人,帮我规划一下行程和充电安排”,系统会综合考虑行程距离、车辆电量、充电桩分布等因素,提供合理的建议。TTS 技术则以清晰、自然的语音将结果反馈给用户。

发展趋势

新能源车机里的 ASR+LLM+TTS 技术的发展趋势如下,必将随着自动驾驶技术走进更多人的视野:

  1. 更高的准确性和鲁棒性
    • 语音识别准确性提升:随着深度学习算法的不断优化和大量训练数据的积累,ASR 技术在复杂车内环境下对各种语音指令的识别准确率将不断提高。例如,对于带有方言、口音、模糊发音的语音,以及在高速行驶时的风噪、胎噪等背景噪音干扰下,仍能保持较高的识别准确率,减少误识别和漏识别的情况。
    • 语言理解能力增强:LLM 会不断进化,能够更好地理解自然语言中的语义、意图和上下文信息。对于新能源车机用户复杂、多样化的指令和问题,系统可以更准确地理解并给出合适的回应和操作建议,提高交互的有效性和准确性。
    • 抗干扰能力加强:车内环境复杂多变,各种噪音、振动等因素会影响技术的性能。未来,相关技术会在硬件和算法层面进行改进,增强对车内环境干扰的抵抗能力,确保在各种恶劣条件下也能稳定工作。例如,采用更先进的降噪算法、多麦克风阵列技术等,提高语音信号的质量和识别的可靠性。
  2. 个性化和定制化服务
    • 用户偏好学习:系统能够根据用户的使用习惯、偏好和历史数据,进行个性化的学习和分析。例如,记住用户经常使用的功能、喜欢的音乐类型、常用的导航目的地等,主动为用户提供个性化的服务和推荐,提高用户体验的满意度。
    • 定制化交互界面:车机系统可以根据用户的需求和喜好,提供定制化的语音交互界面和操作方式。用户可以自定义语音指令的关键词、唤醒词,设置不同的语音提示风格和音量大小等,满足不同用户的个性化需求。
    • 多用户识别与个性化服务:新能源车通常会有多个用户使用,未来的技术将能够准确识别不同的用户身份,并根据每个用户的个性化设置和偏好提供相应的服务。例如,不同用户上车后,车机系统自动切换到该用户的个性化设置和服务界面。
  3. 与车辆系统的深度融合
    • 与车辆控制的紧密结合:ASR+LLM+TTS 技术将与新能源车的车辆控制系统实现更深度的融合,不仅可以控制车内的娱乐、导航等功能,还能参与到车辆的驾驶辅助、安全控制等重要系统中。例如,通过语音指令实现自动泊车、自适应巡航控制、紧急制动等操作,提高驾驶的便利性和安全性。
    • 与车辆传感器数据的协同工作:结合车辆上的各种传感器数据,如车速、加速度、环境温度等,为用户提供更精准的信息和服务。例如,根据车辆的行驶状态和环境信息,自动调整语音提示的内容和频率,或者在车辆出现故障时,及时通过语音告知用户并提供相应的解决方案。
  4. 多模态交互融合
    • 语音与手势、眼神等交互方式的结合:未来的新能源车机系统将不仅仅依赖语音交互,还会与手势识别、眼神追踪等多模态交互方式相结合。用户可以通过语音、手势、眼神等多种方式与车机系统进行交互,提高操作的灵活性和便捷性。例如,用户在语音指令的同时,通过手势来强调或补充某些信息,使交互更加自然和高效。
    • 与车载显示屏的互动增强:TTS 技术生成的语音信息将与车载显示屏上的图像、文字等信息进行更好的结合和互动。例如,在导航过程中,显示屏上显示地图和路线信息的同时,通过语音提示用户下一步的行驶方向和注意事项,使用户能够更直观地理解和掌握相关信息。
  5. 云端与本地协同计算
    • 云端计算的优势发挥:云端拥有强大的计算能力和丰富的资源,可以对大量的语音数据进行快速处理和分析,为新能源车机提供更准确、更智能的服务。例如,通过云端的大数据分析和机器学习算法,不断优化语音识别模型和语言理解模型,提高系统的性能和智能化水平。
    • 本地计算的实时性保障:在一些对实时性要求较高的场景下,如紧急制动、快速导航等,本地计算可以确保系统能够快速响应,不受网络延迟的影响。未来的车机系统将实现云端与本地计算的协同工作,根据不同的场景和需求,自动选择合适的计算方式,提高系统的整体性能和可靠性。
  6. 智能化程度不断提高
    • 自主学习和进化能力:系统将具备更强的自主学习和进化能力,能够不断地从用户的使用过程中学习新的知识和技能,不断优化自己的性能和服务。例如,随着用户使用时间的增加,系统对用户的语音习惯和需求的理解会越来越准确,提供的服务也会越来越贴合用户的实际需求。
    • 智能对话和场景理解:能够实现更智能的对话和场景理解,根据用户的对话上下文、当前的驾驶场景等因素,进行更加准确的回应和操作。例如,当用户在行驶过程中询问“附近有哪些适合休息的地方”,系统会结合当前的位置、时间、交通状况等信息,为用户推荐合适的休息场所。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/60287.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前后端、网关、协议方面补充

这里写目录标题 前后端接口文档简介前后端视角对于前端对于后端代码注册路由路由处理函数 关于httpGET/POST底层网络关于前端的获取 路由器网关路由器的IP简介公网IP(WAN IP)私网IP(LAN IP)无线网络IP(WIFI IP)查询路由器私网IP路由器公网IP LAN口与WIFI简介基本原理 手动配置电…

YOLOv9改进 ,YOLOv9改进损失函数采用SlideLoss来处理样本不平衡问题

摘要 作者提出了一种基于 YOLOv5 改进的实时人脸检测模型,称为YOLO-FaceV2。设计了一个感受野增强模块(RFE)来提升小尺度人脸的感受野,并引入了 NWD 损失,以弥补 IoU 在小目标位置偏差上的敏感性。针对人脸遮挡问题&a…

uni-app中使用 unicloud 云开发平台③

文章目录 六、hbuilderX 中使用 unicloud 云开发平台文档传统业务开发流程什么是 unicloudunicloud 优点开发流程uncloud 构成云数据库云存储及 CDN创建云函数工程七、unicloud api 操作云函数调用云函数实现云数据库基本增删改查1. 获取数据库引用云存储操作六、hbuilderX 中使…

用 Python 从零开始创建神经网络(五):损失函数(Loss Functions)计算网络误差

用损失函数(Loss Functions)计算网络误差 引言1. 分类交叉熵损失(Categorical Cross-Entropy Loss)2. 分类交叉熵损失类(The Categorical Cross-Entropy Loss Class)展示到目前为止的所有代码3. 准确率计算…

PDF24:多功能 PDF 工具使用指南

PDF24:多功能 PDF 工具使用指南 在日常工作和学习中,PDF 是一种常见且重要的文档格式。无论是查看、编辑、合并,还是转换 PDF 文件,能够快速高效地处理 PDF 文档对于提高工作效率至关重要。PDF24 是一款免费、功能全面的 PDF 工具…

java数据结构与算法:栈

栈 1、栈的基本概念2、Java模拟简单的顺序栈实现3、增强功能版栈4、利用栈实现字符串逆序5、利用栈判断分隔符是否匹配6、总结 1、栈的基本概念 **栈(英语:stack)**又称为堆栈或堆叠,栈作为一种数据结构,是一种只能在…

【Conda】Windows下conda的安装并在终端运行

下载 在官网下载 https://www.anaconda.com/download/success 安装 双击 一直下一步安装 配置环境变量 为了在终端运行,需配置环境变量 进入到安装conda的目录并复制路径 设置高级环境变量 在终端运行 输入: conda list表明可以正常运行 参考…

游戏引擎学习第七天

视频参考:https://www.bilibili.com/video/BV1QFmhYcE69 ERROR_DEVICE_NOT_CONNECTED 是一个错误代码,通常在调用 XInputGetState 或 XInputSetState 函数时返回,表示指定的设备未连接。通常会出现以下几种情况: 未连接控制器:如…

【网络安全渗透测试零基础入门】之SNMP放大攻击原理及实战演示,零基础入门到精通,收藏这一篇就够了!

前言 这是小强给粉丝盆友们整理的网络安全渗透测试入门阶段dos与ddos渗透与防御教程。 喜欢的朋友们,记得给我点赞支持和收藏一下,关注我,学习黑客技术。 SNMP(Simple Network Management Protocol ):简单…

el-dialog 设置 水平垂直居中 高度不固定

小记一下: 希望实现不管内容高度多少 el-dialog都能水平垂直居中 效果: css: .form-view-dialog{display: flex;align-items: center;justify-content: center;.el-dialog{margin: 0 auto; }.el-dialog__body{max-height: 75vh; // 可选择 设置一个最…

EMC Plus:外壳中的 PCB 演示

EMC Plus 提供了计算任何导入的近场源文件的字段统计信息的高级功能。在本演示中,我将指导您完成分析辐射电场的分步工作流程,特别是由 EMC Plus 中从 SIwave 导入的近场源产生的辐射电场。让我们开始吧! 概述 以下模型是计算机机箱&#x…

【免越狱】iOS砸壳 可下载AppStore任意版本 旧版本IPA下载

软件介绍 下载iOS旧版应用,简化繁琐的抓包流程。 一键生成去更新IPA(手机安装后,去除App Store的更新检测)。 软件界面 支持系统 Windows 10/Windows 8/Windows 7(由于使用了Fiddler库,因此需要.Net环境…

SpringBoot沙箱环境支付宝支付

1、创建应用 登录支付宝开放平台 支付宝开放平台网址 :支付宝 (alipay.com) 支付宝开放平台 下拉最下边 2、获取appId、支付宝公钥、应用私钥 3、开始创建spring boot项目 #支付宝支付配置 alipay:#你的APPIDappId: 902************#你的应用私钥privateKey: MIIE…

计算机图形学 实验二 三维模型读取与控制

目录 一、实验内容 二、具体内容 (在实验2.3的基础上进行修改) 1、OFF格式三维模型文件的读取 2、三维模型的旋转动画 3、键盘鼠标的交互 4、模型的修改 三、代码 一、实验内容 读取实验提供的off格式三维模型,并对其赋色。利用鼠标和键盘的交互&#xff0…

FastGPT部署通义千问Qwen和智谱glm模型|OneAPI配置免费的第三方API

继这篇博客之后 从零开始FastGPT本地部署|Windows 有同学问,不想在多个平台申请API-Key,不好管理且要付费,有木有白嫖方案呀? 答:有啊。用硅基流动。 注册方法看这篇 【1024送福利】硅基流动送2000万token啦&#xff0…

SSE (Server-Sent Events) 服务器实时推送详解

Server-Sent Events 一、什么是 SSE ?二、SSE 的工作原理三、SSE 的基本配置1.HTTP 请求和响应头设置2.SSE 字段介绍3.SSE 事件数据流示例 四、SseEmitter 的基本配置1.SseEmitter 介绍及用法2.使用 SseEmitter 示例11)编写核心 SSE Client2)编写 Controller3)前端接收与处理 …

UE4/5 编译报错 MSB3073

UE4/5 编译报错 MSB3073 目录 UE4/5 编译报错 MSB3073 一、引言 二、方法1 三、方法2 四、方法3 一、引言 我们下载源代码之后编译时,可能会出现以下报错: MSB3073 命令“..\..\Build\BatchFiles\Rebuild.bat -Target"UE4Editor Win64 Devel…

Python学习从0到1 day28 Python 高阶技巧 ⑤ 多线程

若事与愿违,请相信,上天自有安排,允许一切如其所是 —— 24.11.12 一、进程、线程 现代操作系统比如Mac OS X,UNIX,Linux,Windows等,都是支持“多任务”的操作系统。 进程 进程:就…

扫雷游戏代码分享(c基础)

hi , I am 36. 代码来之不易👍👍👍 创建两个.c 一个.h 1:test.c #include"game.h"void game() {//创建数组char mine[ROWS][COLS] { 0 };char show[ROWS][COLS] { 0 };char temp[ROWS][COLS] { 0 };//初始化数…

智慧社区可视化解决方案:科技引领社区服务与管理新篇章

随着社会的发展,智慧社区作为新型城镇化发展目标和社区服务体系建设的重要举措,正逐步改变着我们的生活方式。智慧社区通过综合运用现代科学技术,整合区域资源,提升社区治理和服务水平,为居民提供更为便捷、高效、安全…