看到这篇文章的人,想必对野生钢铁侠-稚晖君,都有所了解。作为华为的天才少年,获得了很多的荣誉,作为B站有名的鸽王,在沉浮一段时间后终于要带着新的东西和大家见面了。动态-哔哩哔哩https://b23.tv/Jv7tIjg
众所周知,稚晖君从华为离职后曾透漏出自己的方向依旧是AI+控制相关的方向,机器人正是符合他的兴趣点,从海报可以看出,其主要方向是人形机器人,红色的心则显露出其“不简单”。最早在上半年4月份左右,从稚晖发布的状态可以看到,双轮与双足切换结构超越了很多人的思考,其“哪吒”除了有炫酷的外观,巧妙地设计之外,AR等技术也有蕴含其中。
想必对于明天发布会,鸽王会给大家带来一些令人稍微惊艳一些的内容。近一段机器人可谓是占据了热搜的前沿,众所周知机器人已经逐步在我们日常中显现出重要的作用,从工厂机械化的流水线生产,到家庭中的智能助手,机器人已经成为我们生活中不可或缺的一部分。从事相关行业的人,这一段时间都看到了雷老板公司团队研发的CyberDog第二代。
其全身搭载多个摄像头和传感器,采用多个处理器分别进行AI计算、运动控制以及语音交互处理。
紧跟其后,宇树发布通用人形机器人H1,刚满半岁,身高1米8,体重47公斤。其单腿自由度为5,包括3个髋关节,1个膝关节和1个踝关节。
随着大模型的涌现,语言模型的的理解能力有了巨大的提升,随之机器人的理解执行能力也在不断提升。国外的李飞飞团队将大模型与机器人结合,展示了队具身智能最新成果。机器人可以理解用户的指令并做出相应的动作,如:
打开上面的抽屉,小心花瓶!
大语言模型+视觉语言模型就能从3D空间中分析出目标和需要绕过的障碍,帮助机器人做行动规划。整个系统命名为VoxPoser,首先是给定环境信息和用户指令,其次接着,大模型根据这些内容生成代码,并与VLM(视觉语言模型)进行交互,指导系统生成相应的操作指示地图。
此外,马萨诸塞大学阿默斯特分校和MIT-IBM Watson AI Lab的淦创团队提出在大模型加持下,智能体不光能听懂人话,还学会相互合作或与人合作。
该研究中的LLM智能体包含了观察、信念、交流、推理和规划五个模块,可谓是将langchain与LLM进行了整合。
紧随国外的研究热点,国内也有较多的一些成果,并且有不错的效果,如清华的Toolllm,西北工业大学的四轴、机器狗、机械臂的任务编排,钢铁侠稚晖君也有一些动作
可以看到机器人能够理解意图并做出相应的动作,复杂任务的堆叠都可以实现。主要的核心点事基于大语言模型的机器人行为自动编排和任务执行。
大模型在机器人领域能够达到什么样的效果,我们拭目以待,同时期待“远征”的首现。
立于皓月之边,不弱星光之势,傍于巨人身侧,不颓好胜之心。
Reference:
1.https://voxposer.github.io/voxposer.pdf
2.Building Cooperative Embodied Agents Modularly with Large Language Models