聆思CSK6大模型+AI交互多模态开源SDK介绍

视觉语音大模型 AI 开发套件( CSK6-MIX )是围绕 CSK6011A 芯片设计的具备丰富语音图像功能与硬件外设的开发板,采用具备丰富组件生态的 Zephyr RTOS作为操作系统,官方提供了十几种开源SDK,包含大模型语音交互、大模型拍照识图、文生图、人脸识别、头肩追踪、手势识别、坐姿提醒等。

聆思科技还提供了模型训练推理工具将自己的算法模型部署至芯片上,也可以配合这个工具构建自己的 AI 应用。

语音交互与识图

功能介绍

SDK主要包含以下功能:

●语音交互:支持按键录音或唤醒后通过语音与大模型进行对话

●拍照识图:支持通过摄像头拍摄图像并上传给大模型进行识别,支持依据识图内容进行提问

●图片生成:支持通过语音交互描述画面内容,令大模型生成图片并显示至套件屏幕上

语音交互模式

支持的语音交互模式

多模态SDK支持三种交互方式,其特点如下:

模式

唤醒方式

交互方式

按键交互

按下屏幕麦克风图标或开发板K3按键

按住按键说话,松开提交

语音唤醒(单轮)

唤醒词 “小美小美”

听到提示音 “在呢” 后进行提问,每次提问均需要唤醒

语音唤醒(多轮)

唤醒词 “小美小美”

听到提示音 “在呢” 后进行提问,可持续对话,当超过20秒无语音输入时自动结束本次交互

语音交互模式的切换

在待机页面,下滑可调出下滑菜单,点击下滑菜单中的 设置图标,可进行配置页面:

选中对应的模式后,点击左上角即可回到待机页面并生效。

按键交互模式

设置成按键交互(按键唤醒)模式下,按住屏幕上的麦克风按钮或开发板上的K3按键,即进入录音状态,松开按键则结束录音并提交。

语音唤醒模式

当设置为语音唤醒(单轮)语音唤醒(多轮),可通过唤醒词 —— “小美小美” 对设备进行唤醒,当听到 “在呢” 的提示音后,即可正常进行语音输入。

退出对话

在使用过程中,点击左上角即可结束本轮对话回到待机页面,此操作会同步清除本次对话的上下文信息。

拍照识图

在待机页,点击拍照按钮即可进入取景页面,对准要拍照的物体,点击右侧中间的拍照键完成抓拍,确认画面抓拍正常后(无晃动模糊的情况),点击右侧的 √ 进行提交识别:

文生图

在设备进入语音交互状态后,可以通过带有绘画意图的提示词让大模型进行作画,比如:

●“画一只熊猫”

●“画一个人正在使用电脑”

图片生成与设备控制

功能介绍

本示例主要包含以下功能:

  • 可通过“小聆小聆”对设备进行唤醒
  • 可通过语音交互与大模型进行对话
  • 可通过语音交互使用大模型绘制图片并显示在屏幕上
  • 可通过语音交互通过大模型控制屏幕显示的颜色
  • 支持通过LSPlatfrom接入自己的大模型应用

大模型语音对话功能

  • 我们可以通过 “小聆小聆” 唤醒词对开发套件进行唤醒
  • 套件被正常唤醒时,会播放应答语 —— "在呢"
  • 此时我们可以接着对开发套件说出我们的问题,比如:“什么是大模型?”
  • 稍等片刻后,开发套件将播放返回的答案

大模型作画

  • 我们可以通过 “小聆小聆” 唤醒词对开发套件进行唤醒
  • 套件被正常唤醒时,会播放应答语 —— "在呢"
  • 此时我们可以接着对开发套件以 “画xx” 的句式说出我们希望它绘制的图像,比如:“画一只大熊猫”
  • 稍等片刻后,开发套件将在显示屏上显示大模型根据我们需求生成的图片

大模型控制设备

  • 我们可以通过 “小聆小聆” 唤醒词对开发套件进行唤醒
  • 套件被正常唤醒时,会播放应答语 —— "在呢"
  • 此时我们可以接着对开发套件件以 “把屏幕设置成xx” 的句式说出希望屏幕显示的颜色,比如:“把屏幕设置成大海一样的颜色”
  • 稍等片刻后,开发套件将把屏幕设置成理解了我们描述后的颜色

智能问答与坐姿检测

功能介绍

本示例功能包含:

  • 坐姿检测:通过摄像头检测人员坐姿,并在出现不良坐姿时进行提醒(红灯闪烁)
  • 语音识别:支持离线识别指定唤醒词并进行录音
  • 网络:通过 WIFI 芯片接入网络,对接聆思大模型平台,支持与大模型进行对话
  • 屏显:通过显示屏展示应用相关动画界面

体验大模型语音对话功能

  • 我们可以通过 “小聆小聆” 唤醒词对开发套件进行唤醒
  • 套件被正常唤醒时,会播放应答语 —— "在呢"
  • 此时我们可以接着对开发套件说出我们的问题,比如:“什么是大模型?”
  • 稍等片刻后,开发套件将播放返回的答案

体验坐姿检测

本示例工程中默认启用了坐姿检测功能,当摄像头识别到不良坐姿时,开发板上也将闪烁红色 LED 进行提醒,同时,我们也可通过 PC 工具查看实时拍摄的图像与坐姿检测结果。

本示例运行时,摄像头将持续拍摄图像并并送入坐姿检测算法进行处理,当检测到画面中出现不良坐姿(如趴桌、手托脸等)时,将闪烁红色 LED 进行提醒,如下图。

借助串口连接即可看到预览图和识别结果;

相关资料

开发版硬件详情和资料下载套件简介 | 聆思文档中心

大模型多模态应用开发培训视频大模型时代下的智能硬件新玩法_哔哩哔哩_bilibili

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/29673.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何在不同的操作系统中查看路由器的IP地址?这里有详细步骤

如果你曾经需要访问路由器的设置页面来进行一些配置更改,你知道你需要路由器的IP地址才能访问。如果你忘记了这个IP地址是什么,下面是如何在几乎所有平台上找到它的。 为什么路由器的IP很有用 在网络世界中,默认网关是一个IP地址,当流量被发送到当前网络之外的目的地时,…

国能数智集团侧交付中心经理曲明志受邀为第十三届中国PMO大会演讲嘉宾

全国PMO专业人士年度盛会 国能数智科技开发(北京)有限公司智能电力业务部总监、集团侧交付中心经理、公司项目经理协会会长曲明志先生受邀为PMO评论主办的2024第十三届中国PMO大会演讲嘉宾,演讲议题为“运营类项目建设经验分享”。大会将于6月…

工业边缘计算网关在机械制造企业中的应用-天拓四方

随着信息技术的不断发展,工业领域对数据处理和分析的需求日益增长。工业边缘计算网关作为一种新型技术,正逐渐成为工业数字化转型的关键驱动力。本文将通过一个具体案例阐述工业边缘计算网关在工业中的应用,以及其为工业生产带来的显著效益。…

Anvil Empires/铁砧帝国操作没反应、频繁掉线怎么办?

Anvil Empires是一款多人在线游戏,且规模非常大!玩家需要在持续的在线世界中与成千上万的玩家一起发动战争。目前自定义服务器技术可以使多达 1000 名玩家能够在大规模的实时战斗,且战斗是由玩家在开放世界沙盒中有机地煽动的,所以…

图论之岛屿系列

图论之岛屿系列 形成模板进行学习&#xff0c;加快学习效率 深度优先遍历 # 可以直接改原始grid的采用直接改的方案来完成修改&#xff0c;减少了内存开支 def dfs(self, grid, i, j):if i < 0 or j < 0 or i > len(grid) or j > len(grid[0]) or grid[i][j] &…

传统车牌识别

主要参考&#xff1a;https://blog.csdn.net/qq_40784418/article/details/105586644 其它介绍&#xff1a; https://blog.csdn.net/great_yzl/article/details/120127962 https://blog.csdn.net/onepunch_k/article/details/115480904 cv2.matchTemplate https://docs.ope…

有个网友问Webview2如何另存为mhtml

有个网友问Webview2如何另存为mhtml 。俺查了一下&#xff0c;Webview2没有直接的saveas函数。然后我查到 之后我就使用 webview2 capture 这2个关键字去查询&#xff0c;果然搜到了 一段代码 然后我把这段代码 改成成C#的&#xff0c; string data await webView21.CoreWebV…

学会这几点,轻松制作引人入胜的电子期刊

随着数字化时代的到来&#xff0c;电子期刊已经成为了信息传播的重要载体。它以方便快捷、形式多样、互动性强等特点&#xff0c;受到了广泛的欢迎。那么&#xff0c;如何制作一份引人入胜的电子期刊呢&#xff1f;下面就来为大家分享几点制作电子期刊的小技巧。 1.选择合适的制…

你为什么学习c++?

C 是几乎所有现代面向对象语言的鼻祖&#xff08;注意是现代面向对象语言&#xff0c;还有一个“古代”面向对象&#xff0c;思想是消息传递而不是封装、继承与多态&#xff0c;Objective-C 就是消息传递的面向对象语言&#xff09;。刚好我有一些资料&#xff0c;是我根据网友…

vue2动态横条图(横条图样式定时切换)

每次切换成新图后会清除定时器和图&#xff08;重新加载&#xff0c;否则要么会重复加载定时器。清除定时器之后要先调用一次index为0的数据&#xff09; 数据样例 acrossBarDatas:{data: ["80", "80"],sunffix: [单位, "单位"],title: "标…

提取人脸——OpenCV

提取人脸 导入所需的库创建窗口显示原始图片显示检测到的人脸创建全局变量定义字体对象定义一个函数select_image定义了extract_faces函数设置按钮运行GUI主循环运行显示 导入所需的库 tkinter&#xff1a;用于创建图形用户界面。 filedialog&#xff1a;用于打开文件对话框。 …

链表OJ--超详细解析

链表OJ 文章目录 链表OJ1. 反转链表2. 返回K值3. 链表的中间节点4. 回文链表5. 相交链表6. 带环链表6.1 为什么一定会相遇&#xff0c;有没有可能会错过&#xff0c;或者出现永远追不上的情况&#xff0c;请证明6.2 slow一次走一步&#xff0c;fast如果一次走3步&#xff0c;走…

Jmeter如何进行分布式测试

使用Jmeter进行性能测试时&#xff0c;有些同学问我如果并发数比较大(比如最近项目需要支持1000并发)&#xff0c;单台电脑的配置(CPU和内存)可能无法支持&#xff0c;怎么办就需要使用分布式压测 1.分布式原理&#xff1a; 1、Jmeter分布式测试时&#xff0c;选择其中一台作…

Selenium IED-控制已打开的Chrome浏览器

本文已收录于专栏 《自动化测试》 目录 背景介绍优势特点操作步骤总结提升 背景介绍 在我们进行自动化测试的过程中有时候会遇见一个很棘手的问题那就是登录的过程中需要图片验证码&#xff0c;图片验证码设计的初衷其实就是为了防自动化&#xff0c;防止一些人利用自动工具恶意…

缓冲区设置

缓冲区设计 一、简介 在网络通讯中&#xff0c;用户态缓冲区和内核态缓冲区的大小设定对于优化网络性能和确保数据传输可靠性至关重要。下图是网路通讯的内核缓冲区使用情况&#xff1a; 数据的读写都需要进行系统调用&#xff0c;从用户态切换到内核态去接收数据&#xff0…

昂科烧录器支持TI德州仪器的超低功耗微控制器MSP430F2013IRSAR

芯片烧录行业领导者-昂科技术近日发布最新的烧录软件更新及新增支持的芯片型号列表&#xff0c;其中TI德州仪器的超低功耗微控制器MSP430F2013IRSAR已经被昂科的通用烧录平台AP8000所支持。 MSP430F2013IRSAR超低功耗微控制器由多种设备组成&#xff0c;这些设备具有针对各种应…

集体爆雷!突发中科院2区(Top) 被标记!新增10本期刊被“On Hold“

本周投稿推荐 SSCI • 中科院2区&#xff0c;6.0-7.0&#xff08;录用友好&#xff09; EI • 各领域沾边均可&#xff08;2天录用&#xff09; CNKI • 7天录用-检索&#xff08;急录友好&#xff09; SCI&EI • 4区生物医学类&#xff0c;0.5-1.0&#xff08;录用…

Nginx缓存之web缓存配置

Web 缓存可节约网络带宽&#xff0c;有效提高用户打开网站的速度。由于应用服务器被请求次数的降低&#xff0c;也相对使它的稳定性得到了提升。Web 缓存从数据内容传输的方向分为前向位置缓存和反向位置缓存两类。如下图所示。 前向位置缓存既可以是用户的客户端浏览器&#x…

处理耗时任务

目录 一 设计原型 二 后台源码 一 设计原型 二 后台源码 namespace 处理耗时任务 {public partial class Form1 : Form{public Form1(){InitializeComponent();}bool IsRun false;private string path Directory.GetCurrentDirectory() "\\古诗词.txt";private…

Vite+Vue3安装且自动按需引入Element Plus组件库

一&#xff0c;安装Element Plus npm install element-plus //node环境16二&#xff0c;安装插件 npm install unplugin-auto-import unplugin-vue-components -D三&#xff0c;配置vite.config.ts文件 //按需引入element-plus组件 import AutoImport from unplugin-auto-i…