化茧成蝶 | 继HuggingFace首家落地大模型具身智能场景

关于具身智能的起源

近年来,大语言模型(LLMs)的兴起给机器人领域带来了革命性的改变,大模型赋予了传统机器人理解和推理的能力,让具身智能这一概念再度出现在大众的视角中。OpenCSG 作为国内 AI 开源社区的先锋,对标国外 HuggingFace 平台,对 HuggingFace 的首席科学官(CSO)发起的基于 dora-rs 开源框架的具身智能机器人进行落地实现和开源分享(https://huggingface.co/posts/thomwolf/809364796644704?image-viewer=809364796644704-3234DF5C5B4FF12A512F5D1B04325DF820919CB3)

OpenCSG 打造中国本土化 Huggingface plus 开源社区 开放传神 OpenCSG 传神社区 官网icon-default.png?t=N7T8https://opencsg.com/

该机器人搭载了最新的大模型并基于最新的计算框架,展现出来卓越的语言理解和生成能力,并凭借其物理形态实现了与现实世界的无缝互动,展现出一流的机器智能化水准。下面就让我们来看一下一个可以理解你、回应你、并与环境互动的智能伙伴是如何实现的吧!

1. 具身智能:AI领域的新兴热点

近年来,随着大语言模型(LLM)技术的飞速发展,具身智能领域取得了令人瞩目的进展。业界和学术界都在该领域上取得了显著的成果,不仅推动了技术的创新发展,也吸引了大量的资本的关注和投资。在业界,大批科创公司投身于此,带来了一批又一批令人耳目一新的具身智能AI产品。比如:

在今年 3 月份,知名 AI 机器人创业公司 Covariant 推出机器人基础模型 RFM-1(Robot Foundation Model-1)是世界上首个基于真实任务数据训练的最接近于解决真实世界任务的机器人大模型。RFM-1 模型是一个基于真实世界的文本、图像、视频、机器人动作以及一系列传感器读数综合训练得到的多模态大模型,通过接受初始图像和机器人动作的输入,预测接下来视频帧的变化,从而让搭载该模型的机器人可以像人一样对真实世界进行推理和预测。

还是今年 3 月份,谷歌 RT 机器人在之前的版本上再一次进化,引入了行动层级(action hierarchy),将复杂的任务分解为简单的语言动作,再转化为机器人动作,充分利用大语言模型的能力,从而提高机器人完成任务的准确性和学习效率。

学术界的研究者也在积极探索具身智能的各种可能。在上个月(5.13-5.17)国际顶级机器人学术会议 ICRA(IEEE International Conference on Robotics and Automation)中,论文的提交数量相较于去年上涨了 25.88%,论文主题覆盖了如双足机器人、人体检测和跟踪、人机交互、机器人学习、安全和监控机器人系统、3D重建、无人机系统、人工智能、农业自动化、行为树和大数据分析等领域。

与此同时,资本也开始大量涌入到具身智能行业。就在 5 月 31 号,前阿里达摩院机器人实验室负责人陈俊波创立的“有鹿机器人”,刚刚宣布完成了超1亿元融资,投资方包括创新工场、元璟资本、百度风投等。最著名的当属华为天才少年“稚晖君”辞职后创立的“智元机器人”,仅仅一年的时间,“智元机器人”的估值已经飙升至 70 亿元。根据Markets and Markets的预测,全球具身智能市场预计2028年将达到138亿美元。Nvidia、OpenAI、三星、微软等世界巨头公司也都纷纷进场,投资押注国外炙手可热的具身智能公司1X Technologies和Figure AI。工业界、学术界和资本的不断支持下,具身智能正在不断突破边界,将科幻带进现实。

2. 小型语言模型SLMs:为智能机器的发展注入新动能

在大型语言模型(LLM)备受瞩目时,一股来自小型语言模型(SLMs)的新风正在悄然兴起,为人工智能领域注入新的动力。相比大型语言模型,SLMs只需要较少的内存和处理能力,使其非常适合基于设备和本地部署。SLMs有着参数小易于部署的特点,展现出媲美大型语言模型的强大实力。

SLMs是一种生成式人工智能模型,通过精简模型结构、优化算法和参数压缩等技术手段,小语言模型实现了在参数数量、模型大小和训练数据量上的“小”化,从而减少了计算资源需求。最著名的当属微软公司开发的Phi-3 模型。其作为微软对无障碍人工智能的持续承诺的一部分,在语言处理,编码,数学推理等任务中具有极其优越的性能,可以做到在大部分领域的性能远超同等参数的语言模型。

在 SLMs 打破次元壁,展现出无限的可能的同时,苹果、谷歌等世界巨头公司也都纷纷推出自家的 SLMs 的落地项目。比如这个月苹果公司在 WWDC 中花费一半的时间介绍的基于 SLMs 的全生态 AI 能力(Apple Intelligence),充分地将 SLMs 和苹果已经建立的完整的硬软件生态系统相结合,让 AI 更好地融入每个人的生活。联想集团大举进军 AIPC 行业,在去年十月份的联想科技创新科技大会(Lenovo Tech World 2023)上展示了联想首款 AIPC,大模型压缩技术等一系列 SLMs 应用创新科技成果,为智能终端的产业发展助力。

OpenCSG 算法团队在国内首次使用自研悟空系列多模态大模型如 csg-wukong-1B-VL、opencsg-bunny-v0.1-3B 等实现具身智能项目,充分展示 SLMs 在具身智能的应用效果。

3. OpenCSG国内首家实现:基于dora 框架的具身智能机器人

OpenCSG 作为国内模型开源社区的领军者,首个尝试并实现了基于dora框架的具身智能机器人项目。该项目由 HuggingFace 的首席科学官(CSO)发起,旨在促进具身智能机器人领域的开源社区发展。该项目使用到大疆平台的 RoboMaster S1 机器车,结合了 OpenCSG 自研悟空系列大模型如多模态大模型 csg-wukong-1B-VL 等和最新的 dora 开源框架。

RoboMaster S1 是大疆平台的可编程遥控车,具有卓越的性能,高度的可编程性,丰富的传感器和较高的性价比以及强大的生态系统,可以为开发人员提强大的硬件系统。但是robomaster sdk已经不再更新了,并且s1需要使用第三方hack sdk才能使用RoboMaster EP的sdk,因此需要进行破解的操作。

dora-rs 是面向数据流的机器人应用框架,旨在简化机器人应用的开发过程。该框架致力于解决硬件设备、算法和人工智能模型等多种要素集成过程中的复杂性,通过高效的通讯手段将它们紧密连接,实现互动协作。在性能方面,dora与当前使用 Python 的 ROS2 相比,性能提升可达17倍。不过由于 dora-rs开源项目正处于实验阶段,可能会出现一些未知的 bug,框架作者会对其不断优化,OpenCSG开源社区也会提供一些框架 bug 的解决方案,为开源项目的发展尽一份力。

OpenCSG 算法团队从 5 月中旬开始对该项目进行复现工作,在复现的过程中遇到了很多问题,比如大疆 RoboMaster 的hack、环境的搭建、dora-rs 的适配等等。接下来让我们来分享一下这一个月内复现的辛酸历程吧。

3.1 体验具身智能的第一步:基础部署

将小型语言模型部署在大疆RoboMaster S1平台上,为具身智能机器人的开发奠定基础。

为了在RoboMaster S1上部署小型语言模型,需要进行一些基础部署工作。首先,通过以下命令下载相关项目代码:

git clone https://opencsg.com/codes/OpenCSG/csg-robomaster

接下来,创建项目的环境,使用以下命令:

conda create -n robomaster python=3.8
pip install robomaster dora-rs==0.3.4 
pip install -r requirements.txt

接着,需要进行RoboMaster S1的破解工作。具体步骤如下:

  • 启动RoboMaster应用程序,并选择通过路由器或通过WLAN的方式连接RoboMaster S1。
  • 连接成功后,使用微型USB电缆将RoboMaster S1连接到计算机的USB端口。连接成功时会听到一声“哔”的声音,类似于连接任何设备时的声音。(请注意,在此过程中不得通过USB连接其他安卓设备)
  • 在应用程序的“实验室”部分,创建一个新的Python应用程序,并粘贴以下代码:
def root_me(module):    __import__ = rm_define.__dict__['__builtins__']['__import__']return __import__(module, globals(), locals(), [], 0) 
builtins = root_me('builtins') 
subprocess = root_me('subprocess') 
proc = subprocess.Popen('/system/bin/adb_en.sh', shell=True, executable='/system/bin/sh', stdout=subprocess.PIPE, stderr=subprocess.PIPE)
  • 运行代码,如果没有出现错误,控制台应显示“执行完毕”的结果。
  • 在不关闭应用程序的情况下,导航至包含Android SDK Platform-Tools文件夹的位置,并在其中打开终端。
  • 运行 ADP 命令 .\adb.exe devices 。如果一切正常,应该会看到类似下面的输出:
     

  • 行位于 s1_SDK 文件夹中的 upload.sh。
  • 当所有步骤执行完毕后,关闭RoboMasterS1并重新启动。在启动过程中,您应该听到两声鸣叫,而不是通常的一声鸣叫,这表明破解操作已成功。

完成基础部署后,就可以进行RoboMaster S1的连接与测试。具体步骤如下:

  1. 确保使用稳定的RoboMaster无线热点连接,无线热点的默认密码是12341234。如果想在联网的情况下运行演示程序,可能需要使用第二张无线网卡。
  2. 尝试使用以下命令测试与RoboMaster S1的连接:
conda activate robomaster
python tests/test_ap.py

也可以直接在命令行中运行测试文件中的代码。如果通信成功,控制台将显示类似下面的输出:

成功连接并测试后,就可以运行具身智能机器人的演示程序了。在命令行中使用以下命令:

conda activate robomaster
# This requires dora==0.3.4, update with:
# cargo install dora-cli
dora up 
dora start graphs/dataflow_robot_vlm.yml --attach --hot-relo

目前,互动方式是在笔记本电脑上按下向上箭头键,将信息录制并发送到机器人的视觉语言模型(Visual Language Model,VLM)。这一基础部署工作为RoboMaster S1上的具身智能机器人开发奠定了坚实的基础。通过结合小型语言模型和具身智能的人性化交互设计,具身智能机器人不仅将广泛应用于家庭、教育和医疗等行业,提供个性化的服务,还将推动智能技术在更广泛的场景中的普及。

3.2 感受具生智能无限的魅力:让机器人拥有自主的理解能力

具身智能机器人是一种结合了语音、视觉、运动和学习等功能的人工智能系统。它可以通过与用户的交互来提供个性化的服务和智能化的体验。借助小型语言模型和具身智能的设计,RoboMaster S1可以成为了一种全新的、强大而具有趣味性的工具。

结合小参数量多模态模型和具身智能,RoboMaster S1能够识别和理解用户的语音指令,并作出相应的反应和动作。例如,当我们对RoboMaster S1说出“前进”、“后退”、“左转”或“右转”等指令时,它能够根据我们的指令进行相应的移动动作。同时,它还可以根据我们的语音指令进行理解后制定下一步计划,能够完成拍照、录像、射击等操作,我们记录下了机器人这些精彩的瞬间。

除此之外,RoboMaster S1本身自带一些编程sdk,可以通过视觉识别技术来感知环境和物体。它可以识别人脸、识别物体、追踪目标等,从而实现更加智能化的互动。借助小型语言模型的嵌入,RoboMaster S1能够理解我们的语言指令,并结合视觉信息作出相应的反应。例如,当我们对它说出“追踪某个人”,它会根据我们的指令进行人物追踪,并通过摄像头进行追踪和拍摄,后续我们会借助这些功能开发出更多有意思的表现。

4. OpenCSG:助力具身智能,共创技术新篇章

OpenCSG作为国内模型开源领域的先驱者,提供了具身智能机器人的开源平台,通过开源的方式推动具身智能机器人的发展。在CSGHub(https://opencsg.com/models)开源社区中,开发者可以访问和共享代码、模型和数据集,便于跨领域的合作和知识共享,同时CSGHub也推出了企业版,能够为企业提供一站式的模型、数据、代码以及应用等资源管理平台。

StarShip CodeGenAgent 以23.67%的成绩获得全球 第二名 的成绩,为StarShip的落地打下了坚实基础。

OpenCSG CSGHub 一站式大模型资源管理平台

OpenCSG StarShip CodeGen API

同时OpenCSG在上个月刚发布的全球SWE-Bench排名第二的StarShip CodeGenApi ,它也将会逐步实现辅助更多的爱好者能够参与到具身智能机器人领域的研究和开发。

OpenCSG欢迎各方研究者、企业、高校等机构的积极参与,我们一起共建具生智能开源开放的社区平台。在我们未来规划中,开发者们可以基于开源平台构建各种具身智能机器人项目,将具身智能机器人项目从概念阶段进展到实际应用阶段。涵盖了家庭、教育、医疗等多个领域,例如,可以开发智能家居助手,为用户提供便捷的家居管理和个性化服务;可以开发教育机器人,辅助学生的学习和发展;还可以开发医疗机器人,在医疗领域提供更高效、精准的辅助治疗服务。

作为开源平台,OpenCSG将持续努力,给国内具身智能机器人提供发展的环境。通过分享经验和技术成果,加速创新步伐,推动更多创新性的具身智能机器人项目实现落地。OpenCSG会提供最好的资源和技术支持,促进开源社区的合作,推动具身智能机器人领域的共同进步。让我们共同期待具身智能机器人领域在OpenCSG开源社区的助推下迸发出更多创新和进步!

参考链接

1.A Survey on Integration of Large Language Models with Intelligent Robots:

https://arxiv.org/abs/2404.09228

2.联想阿木:AIPC让AI惠及每一个人:

https://mp.weixin.qq.com/s/MK2IRXbNqVytYtQHR8FpEw

3.ICRA 官网:

https://2024.ieee-icra.org

4.HuggingFace开源 dora 项目:

https://huggingface.co/dora-rs

5.dora-rs 开源项目:

https://github.com/dora-rs/dora

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/35779.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[AI MoneyPrinterTurbo] 一键成片,超级印钞机

今天,我们将踏上一段关于MoneyPrinterTurbo的探索之旅,这是一个文生视频工具,旨在让视频创作变得轻松而有趣。 故事的开始 想象一下,你只需要提供一个视频主题或关键词,剩下的——视频文案、素材、字幕、背景音乐&am…

openCV3.0 C++ 学习笔记补充(自用 代码+注释)---持续更新 二(51-)

环境:OpenCV3.2.0 VS2015 51、Mean-Shift算法分割图像 cv::pyrMeanShiftFiltering() 参考链接:【从零学习OpenCV 4】分割图像——Mean-Shift分割算法 Mean-Shift算法又被称为均值漂移法,是一种基于颜色空间分布(彩色图像的像素值)的图像分割…

pycharm鼠标变成小方块

异常图片: 异常原因:误动了键盘insert键 解决方法:Fninsert

根据配置生成一个合并单元格的table表格的html代码

​分享最近工作中遇到的一个场景:导出表格,需要准备好表格的html代码,此表格支持最上面的表头合并且居中展示表格标题,如果上下行数据有相同的,则要上下合并单元格 封装了一个如下的方法 const configToTable (conf…

国家自然科学基金标书大全(2002-2024)

数据来源:在20世纪80年代初,为了促进中国的科技体制革新并改革科研资金分配机制,中国科学院的89位院士联名向党和国家领导人提出建议,设立了国家自然科学基金的设立。国自然基金自创立以来,根据国家发展科学技术方针、…

dataguard 主备切换方式switchover 和 failover 操作步骤

作者介绍:老苏,10余年DBA工作运维经验,擅长Oracle、MySQL、PG数据库运维(如安装迁移,性能优化、故障应急处理等) 公众号:老苏畅谈运维 欢迎关注本人公众号,更多精彩与您分享。datagu…

SpringBoot整合拦截器和日期转换器

一、SpringBoot整合拦截器 1.添加拦截器 package com.by.interceptor;import com.by.pojo.User; import org.springframework.stereotype.Component; import org.springframework.web.servlet.HandlerInterceptor;import javax.servlet.http.HttpServletRequest; import java…

【ARM】内存属性Memory Attributes (MemAttr)

目录 1. EWA 2. Device 3. Cacheable 4. Allocate 5. 内存属性的传播 6. 事务属性组合 7. Memory Type 内存属性Memory Attributes (MemAttr) 包含Early Write Acknowledgment (EWA), Device, Cacheable, 以及Allocate。 1. EWA EWA,Early Write Acknowledg…

AI自动生成角色和情节连续的漫画,中山大学联想提出AutoStudio,可以多轮交互式连续生成并保持主题一致性。

中山大学和联想研究院提出AutoStudio: 是一种无需训练的多代理框架,用于多轮交互式图像生成,能够在生成多样化图像的同时保持主体一致性。 AutoStudio 采用三个基于 LLM 的智能体来解释人类意图并为 SD 模型生成适当的布局指导。此外,还引入…

让AI保持怪异

让AI保持怪异 Anthropic的创意技术专家和员工设计师凯尔图尔曼(Kyle Turman)分享了一种深深引起共鸣的观点。他说(转述原话):“人工智能实际上真的很奇怪,我认为人们对这一点的认识还不够。”这引发了我向小组提出的问题:我们是否有消毒人工智能固有的陌生感的风险?…

python-序列相关

序列(squence)是一组按顺序、紧密排列在一起的数据集。序列的作用是便于管理、方便数据操作更重要的是序列支持切片操作。 序列主要包括:列表、元组、字符串和字节串 内置数据结构: 容器:列表、元组、字典、集合 结构…

Chromium 调试指南2024 Mac篇 - 准备工作 (一)

1.引言 Chromium是一个由Google主导开发的开源浏览器项目,它为Google Chrome浏览器提供了基础框架。Chromium不仅是研究和开发现代浏览器技术的重要平台,还为众多其他基于Chromium的浏览器(如Microsoft Edge、Brave等)提供了基础…

atcoder abc 359

A count takahashi 问题: 思路&#xff1a;字符串比较 代码&#xff1a; #include <bits/stdc.h>using namespace std;int main() {int n;cin >> n;int ans 0;for(int i 1; i < n; i ) {string s;cin >> s;if(s[0] T) ans ;}cout << ans;re…

Android 多媒体开发——Media3与MediaSession最全使用指南

一、Media3库简介 1.1 Media3是什么&#xff1f; 官方释义&#xff1a; Jetpack Media3 is the new home for media libraries that enables Android apps to display rich audio and visual experiences. Media3 offers a simple architecture with powerful customization,…

软考出成绩了,速查,查分方式看这里

各位考生&#xff0c;软考出成绩啦&#xff01;大家赶紧查一下&#xff0c;各科都45分就是通过&#xff01; 软考成绩查询入口已开通&#xff0c;此刻你是不是既激动又忐忑&#xff1f;速查&#xff01; ★ 查询网站 中国计算机技术职业资格网https://bm.ruankao.org.cn/sign/…

如何轻松获取 GitLab 指定分支特定路径下的文件夹内容

第一步&#xff1a; 获取 accessToken 及你的 项目 id &#xff1a; 获取 accessToken ,点击用户头像进入setting 按图示操作&#xff0c;第 3 步 填写你发起请求的域名。 获取项目 id , 简单粗暴方案 进入 你项目仓库页面后 直接 源码搜索 project_id&#xff0c; value 就…

记录Gstreamer的uridecodebin可以自动选择硬解码器

记录&#xff1a; uridecodebin3 和uridecodebin优先硬解码 这两个插件&#xff0c;本来是负责动态选择合适的解码器来处理特定的媒体流&#xff0c;使用案例&#xff1a; gst-launch-1.0 uridecodebin urirtsp://192.168.1.120:8554/test ! glimagesink -v gst-launch-1.0 …

Linux通用LInux高危漏洞(CVE-2024-1086)修复案例

一、漏洞描述 2024年3月28日&#xff0c;监 Linux kernel权限提升漏洞&#xff08;CVE-2024-1086&#xff09;的PoC/EXP在互联网上公开&#xff0c;该漏洞的CVSS评分为7.8&#xff0c;目前漏洞细节已经公开披露&#xff0c;美国网络安全与基础设施安全局&#xff08;CISA&…

【UE5.3】笔记4-自定义材质蓝图

正常来说&#xff0c;我们都是拿到什么材质用什么材质&#xff0c;那么我们如何去创建自定义的材质呢&#xff1f; 首先&#xff0c;创建MyMaterials文件夹用来存放我们自制的材质&#xff1b; 然后&#xff0c;右键创建一个材质&#xff0c;起个名字&#xff0c;双击打开&am…

Linux-笔记 全志平台休眠功能初探

前言 全志平台支持的休眠功能主要包括两种模式&#xff1a;休眠模式和待机模式。这两种模式用于降低设备的功耗&#xff0c;并在需要时快速恢复工作状态。由于平台为T113&#xff0c;所以可以很方便的使用RTC来做唤醒源。唤醒源指的是能够让系统从休眠状态恢复到工作状态的信号…