函数调用实现小米汽车智能语音助手

上周小米汽车发布,其中有一个特色功能就是智能语音,小爱同学整合了语音大模型,实现智能座舱体验。

雷老板的PPT也演示了,一些口语化的对话就能触发各种指令,无论是开空调、播放音乐,还是找手机、识别前方汽车,丝滑流畅。

其实这个就是语言大模型中的函数调用能力,ChatGPT老早就已经能力支持了,只是很多小伙伴们没有发觉,或者看到冗长的技术文档就觉得是很复杂的功能。

本期文章就聊聊如何简单、快速地使用语言大模型实现一个小米汽车同款的智能语音助手。

语音输入

语言转文字有很多成熟的解决方案,openai的wisper-1模型,或者讯飞听见,甚至是手机电脑自带的语音识别,识别语音的准确度都是很高的。

函数调用

ChatGPT大模型是现在市面上训练地最充分,也是国外的大模型中对中文支持最友好的一个。基于工作难度和响应速度考虑,gpt-3.5-turbo模型已经够用了。

系统预设

当然,为了让语言大模型能够准确地了解我们的使用场景,可以适当地添加系统预设,例如:

{"role": "system","content": "你是一辆汽车内置的智能语言系统“小爱同学”,为乘客提供智能的语言交互服务,输出指令集。"
}

函数定义

然后就是指令集的定义,可以参考openai官方文档

https://platform.openai.com/docs/guides/function-calling

使用json-schema定义函数,语言大模型会根据语境输出如何调用函数。这里给大家提供一个json-schema数据的编辑工具

https://texttools.cn/json-schema/

我们可以简单定义一些车内的设备操作和程序指令,例如:

[{"name": "instruction_set","description": "指令集","parameters": {"type": "object","title": "指令集","properties": {"控制空调": {"type": "object","title": "","properties": {"opeartion": {"type": "string","title": "","enum": ["开启,关闭,调高温度,调低温度,调大风速,调低风速"]}}},"控制音乐": {"type": "object","title": "","properties": {"opeartion": {"type": "string","title": "","enum": ["播放,暂停,大声,小声"]}}},"执行程序": {"type": "object","title": "","properties": {"program": {"type": "array","title": "","items": {"type": "string","title": "程序名称","enum": ["获取当前位置","识别前方车辆","识别左方建筑","识别右方建筑","推荐附近美食","定位手机"]}}}}}}}
]

这里为了直观直接使用了中文的key,强迫症程序猿请忽略

语言输入

然后我们就可以模拟一下在车内的时候跟车载语音助手的互动,可以在一句话中包含了多个信息,现在的语言大模型是可以轻松地理解对话内容。

例如我们可以说:

"我有点热,车里太安静了,左边那个建筑是什么,前面那辆车是什么车"

接口调用

然后请求接口 

可以看到返回结果

{"控制空调": {"opeartion": "调低温度"},"控制音乐": {"opeartion": "播放"},"执行程序": {"program": ["识别左方建筑", "识别前方车辆"]}
}

返回的指令集包括了:

  • 空调调低温度

  • 播放音乐

  • 执行程序 识别左方建筑

  • 执行程序 识别前方车辆

这个指令集是严格按照我们预设的结构生成的,拿到这个指令集之后,就可以识别并执行对应的程序,还可以在预设这些场景输出的回答内容,例如“已调低空调温度”等。

贴一下详细的curl,执行的时候只要将 THIS_IS_YOUR_APIKEY 替换为你的apikey即可。

curl --request POST \--url https://api.smarttxt.net/v1/chat/completions \--header 'Authorization: Bearer THIS_IS_YOUR_APIKEY' \--header 'Content-Type: application/json' \--header 'content-type: application/json' \--data '{"model": "gpt-3.5-turbo","messages": [{"role": "system","content": "你是一辆汽车内置的智能语言系统“小爱同学”,为乘客提供智能的语言交互服务,输出指令集。"},{"role": "user","content": "我有点热,车里太安静了,左边那个建筑是什么,前面那辆车是什么车"}],"functions": [{"name":"instruction_set","description":"指令集","parameters":{"type":"object","title":"指令集","properties":{"控制空调":{"type":"object","title":"","properties":{"opeartion":{"type":"string","title":"","enum":["开启,关闭,调高温度,调低温度,调大风速,调低风速"]}}},"控制音乐":{"type":"object","title":"","properties":{"opeartion":{"type":"string","title":"","enum":["播放,暂停,大声,小声"]}}},"执行程序":{"type":"object","title":"","properties":{"program":{"type":"array","title":"","items":{"type":"string","title":"程序名称","enum":["获取当前位置","识别前方车辆","识别左方建筑","识别右方建筑","推荐附近美食","定位手机"]}}}}}}}]
}'

点击获取apikey

到此,我们就已经实现了智能语音助手中最关键的“对话转指令”的能力。但是我们这个功能依赖的是线上的服务,为了保证离线时系统的可用性,我们还可以和小米汽车一样在本地部署一个大模型。

ps:有需要本地部署大模型可以联系站长。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/787524.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis Stack 安装部署

参考:Run Redis Stack on Docker | Redis Redis-stack 初体验_redis stack-CSDN博客 【docker】运行redis_docker run redis-stack-server requirepass-CSDN博客 Redis Stack 是一组软件套件,它主要由三部分组成。 一个是 Redis Stack Server&#x…

艺术点亮新乡村--博罗县“村ART“乡村艺术创作大赛圆满落幕

三月的博罗大地春意盎然,处处洋溢着勃勃生机。在这万物复苏、欣欣向荣的美好时节,一场由农民自编自演、自导自绘的乡村文化盛宴在古朴幽静的徐田村徐徐拉开帷幕。由博罗县委宣传部倾情指导,县文联、文广旅体局、文明办通力合作,泰康保险集团鼎力承办的"村ART"乡村艺术…

多功能知识付费源码下载-实现流量互导多渠道变现(带详细安装教程)

资源变现类产品的许多优势,并剔除了那些无关紧要的元素,使得本产品在运营和变现能力方面实现了质的飞跃。多领域素材资源知识变现营销裂变独立版本。 支持:视频、音频、图文、文档、会员、社群、用户发布、创作分成、任务裂变、流量主、在线…

14种建模语言(UML)图形

前言 UML 中有四种关系:依赖、关联、泛化和实现。这四种关系是 UML 模型中可以包含的基本关系事物。这里介绍14种UML图形:类图,对象图,包图,构件图,组合结构图,部署图,制品图,用例图…

sql之每日五题day02--多表联查/聚合函数/多值判断/函数

sql之每日五题day01--多表联查/聚合函数 where和group by同时出现分别查看&结果不去重--union allunion all细节别名case when多值判断数据处理函数 where和group by同时出现 SQL24 统计每个用户的平均刷题数 仅查看山东大学的用户在不同难度下的每个用户的平均答题题目数…

DNDC模型对所有处理的土壤温度和湿度模拟效果良好,但有时土壤湿度模拟存在偏差

使用 DNDC 模型评估加拿大多样化作物轮作系统对产量和 N2O 排放的影响 原名:Assessing the impacts of diversified crop rotation systems on yields and nitrous oxide emissions in Canada using the DNDC model 译名:使用 DNDC 模型评估加拿大多样…

爬虫逆向实战(39)-某某兔装修网登陆(RSA)

一、数据接口分析 主页地址:某某兔装修网 1、抓包 通过抓包可以发现登陆是表单提交 2、判断是否有加密参数 请求参数是否加密? 通过查看“载荷”模块,可以发现有一个val和password的加密参数 请求头是否加密? 无响应是否加密…

vue 实现自定义分页打印 window.print

首先这里是我自定义了打印界面才实现的效果,如果不用自定义界面实现,应该是一样的吧。具体可能需要自己去试试看 我的需求是界面有两个表格,点击全部打印,我需要把第一表格在打印是第1页,第二个表格是第二页 如图&…

SmartChart的部署以及可能遇见的报错解决方案

简介 数据可视化是一种将数据转化为图形的技术,可以帮助人们更好地理解和分析数据。但是,传统的数据可视化开发往往需要编写大量的代码,或者使用复杂的拖拽工具,不仅耗时耗力,而且难以实现个性化的需求。有没有一种更…

号称史上最全的PostgreSQL备份恢复,送给有缘人...

📣📣📣 哈喽!大家好,我是【IT邦德】,江湖人称jeames007,10余年DBA及大数据工作经验 一位上进心十足的【大数据领域博主】!😜😜😜 中国DBA联盟(ACD…

​慧天[HTWATER]可以与与SWMM模型之间实现转换吗?

​慧天[HTWATER]软件简介 针对城市排水系统基础设施数据管理的需求,以及水文、水力及水质模拟对数据的需求,实现了以数据库方式对相应数据的存储。可以对分流制排水系统及合流制排水系统进行地表水文、管网水力、水质过程的模拟计算。可以对城市低影响开…

SwiftUI Swift 显示隐藏系统顶部状态栏

Show me the code // // TestHideSystemTopBar.swift // pandabill // // Created by 朱洪苇 on 2024/4/1. //import SwiftUIstruct TestHideSystemTopBar: View {State private var isStatusBarHidden falsevar body: some View {Button {withAnimation {self.isStatusBa…

有单片机基础,准备过一遍freertos,之后再学linux

应届生我觉得继续把单片机深入一下比较好。 站在公司的角度思考一下,个人觉得应该有以下结论: 1 大公司具备技术资金等优势,因此喜欢学历好,理论扎实能够攻坚的人。倾向于培养各个领域的专家,共同构建自己产品的竞争…

金三银四求职季,最新面试题分享和解析,建议收藏

随着金三银四招聘旺季的到来,在这个竞争激烈的时刻,了解最新的软件测试面试题,充分准备面试,对求职者来说显得尤为重要。本文将分享一些金三银四期间最新的软件测试面试题,帮助求职者更好地应对面试挑战。 一.登录页面…

企业如何通过AARRR模型完成快速扩张?

在竞争激烈的市场环境中,企业要想实现持续的用户增长,就需要采用一套有效的策略和模型。AARRR模型→(【1日1词】AARRR用户增长模型--互联网运营经典模型)是一个帮助企业实现用户增长的有效方法。下面将详细阐述企业在营销运营过程…

OpenHarmony实战开发-如何通过Stage模型实现一个简单的游戏卡片

介绍 本示例展示了如何通过Stage模型实现一个简单的游戏卡片。 通过卡片支持的点击事件进行交互,让用户通过点击的先后顺序把一个乱序的成语排列成正确的成语。使用了C和TS的混合编程方式,将获取随机数的能力下沉到C实现,并通过NAPI的能力将…

Adaboost集成学习 | Matlab实现基于GRU-Adaboost门控循环单元结合Adaboost集成学习时间序列预测(股票价格预测)

目录 效果一览基本介绍模型设计程序设计参考资料效果一览 基本介绍 Adaboost集成学习 | Matlab实现基于GRU-Adaboost门控循环单元结合Adaboost集成学习时间序列预测(股票价格预测) 模型设计 股票价格预测是一个具有挑战性的时间序列预测问题,可以使用深度学习模型如门控循环…

常用运动模型

运动模型 常用运动模型: CV、CA、CTRV、CTRV、CTRA、CSAV和CCA/CSAA模型微分多项式模型辛格模型半马尔科夫模型机动目标"当前模型"二维转弯运动模型三维模型比列导引模型 恒定速度模型(Constant Velocity, CV) 恒定加速度模型(C…

websocket 局域网 webrtc 一对一 多对多 视频通话 的示例

基本介绍 WebRTC(Web Real-Time Communications)是一项实时通讯技术,它允许网络应用或者站点,在不借助中间媒介的情况下,建立浏览器之间点对点(Peer-to-Peer)的连接,实现视频流和&am…

【算法刷题day14】Leetcode:144.二叉树的前序遍历、94.二叉树的中序遍历、145.二叉树的后序遍历

文章目录 二叉树递归遍历解题思路代码总结 二叉树的迭代遍历解题思路代码总结 二叉树的统一迭代法解题思路代码总结 草稿图网站 java的Deque 二叉树递归遍历 题目: 144.二叉树的前序遍历 94.二叉树的中序遍历 145.二叉树的后序遍历 解析:代码随想录解析…