定义:机器人是能进行运动、操纵或定位且具有一定程度自主能力的可编程执行机构。按外在形态分类可分为传统机器人和人形机器人,其中人形机器人是一种利用人工智能和机器人技术制造的具有类似人类外观和行为的机器人。
人形机器人发展历程:
人形机器人软硬件架构示意图
整体框架:软件决定人形机器人高度,算法需与硬件匹配
人形机器人本质是AI系统落地物理世界的最佳载体,算法是核心,需与硬件匹配。机器人的输出包含了虚拟与物理两种能力。虽然人形机器人从本体硬件上看,存在抗压硬度与灵敏度不足的问题,但更核心问题在于是算法对运动能力的控制,包括本体平衡、行走的步态、手部抓取等规划与控制。这需要成熟的感知系统基础、强大的算法分解任务和规划动作、大模型不断仿真训练以及超强的算力支撑。
人形机器人的输入输出端
输入端:
- 传感器数据:
-
具体范畴:视觉传感器(摄像头、深度相机等)、触觉传感器(压力传感器、触觉阵列等)、力觉传感器(力矩传感器、力反馈设备等)、声音传感器(麦克风、语音识别模块等)、惯性测量单元(IMU)、接近传感器等。
-
融合感知:随着多传感器融合技术的发展,人形机器人能够更准确地感知环境,提高决策和执行的精度。例如,通过结合视觉和深度传感器数据,机器人可以更精确地识别物体和障碍物。
特斯拉FSD纯视觉深度学习神经网络渐趋成熟,可嫁接至人形机器人。与自动驾驶类似,人形机器人同样需利用传感器(摄像头、激光雷达等)感知、采集和处理周围环境信息,以便做出决策。特斯拉人形机器人仅使用3个摄像头(中间鱼眼摄像头、左右各一个视觉摄像头),直接嫁接FSD成熟的纯视觉方案,再辅之以力力矩声学触觉温度等传感器。
-
微型化与集成化:传感器技术的微型化和集成化趋势使得人形机器人能够搭载更多类型的传感器,同时保持整体结构的紧凑和轻便。
- 用户指令:
- 具体范畴:语音指令识别(语音转文字、语义理解等)、手势识别(基于视觉的手势识别算法)、触摸交互(触摸屏或触摸板的输入处理)等。
自然语言处理:随着自然语言处理技术的进步,人形机器人将能够更准确地理解用户的语音和文字指令,实现更自然的交互。
情感识别:通过分析用户的语音、面部表情和姿态等信息,人形机器人可以识别用户的情感状态,并据此调整其行为和反馈方式,提高交互的智能化和个性化水平。
输出端:
- 动作执行:
- 具体范畴:关节运动控制(电机控制算法、运动学计算等)、步行与平衡控制(步态规划、平衡算法等)、手部操作(抓取控制、手部运动规划等)。
人形整机平衡与行走步态是关键:
人形机器人执行层指的是系统在做出决策后,对机器人本体做出控制。机器人各操控系统都与决策系统相链接,并按指令精确执行。其中,人形整机平衡与行走步态是最基本也是最关键的两个环节:
- 信息反馈:
- 具体范畴:视觉反馈(显示屏显示、AR/VR交互等)、声音反馈(语音提示、音频警告等)、触觉反馈(振动提示、力反馈等)。
二、人形机器人的分层解析
1. 软件层
算法:
-
运动规划算法:用于规划机器人的运动轨迹和动作,包括路径规划、轨迹优化、避障算法等。
-
感知算法:处理传感器数据,提取环境信息,包括图像识别、目标跟踪、环境建模等。
-
控制算法:根据输入指令和感知信息,生成控制信号驱动机器人执行动作,包括逆动力学计算、姿态控制等。
-
学习与决策算法:使机器人具备自主学习和决策能力,包括机器学习、深度学习、强化学习等,用于提高机器人的智能化水平。
-
深度学习优化:随着深度学习技术的不断发展,人形机器人的算法将越来越注重优化模型的精度和效率,以处理更复杂和实时的任务。
-
迁移学习:通过迁移学习技术,人形机器人可以利用已有知识和经验来加速新任务的学习过程,提高自适应能力。
-
实时性优化:对于人形机器人而言,算法的实时性至关重要。因此,算法设计时需要考虑到计算效率,优化算法的执行速度,确保机器人能够迅速响应外部环境和指令的变化。
-
安全性保障:人形机器人在执行任务时,必须确保安全性和稳定性。因此,算法中需要加入安全约束和异常处理机制,防止机器人出现意外情况或伤害人类。
操作系统与软件平台:
- 具体范畴:机器人专用操作系统(ROS等)、实时操作系统(RTOS)、软件开发框架和工具、中间件和通信协议等。
仿真:算法训练可提升机器人智能化水平
仿真的目的在于评估机器人结构和算法的设计,包括机器人的运动、工作环境、感知等,意义在于通过仿真模型快速、低成本、高安全性地训练机器人的算法。通过仿真,可加快软件更新迭代,同时缩短算法与硬件调整时间,极大提高训练效率。另外,随着芯片与AI技术的发展,未来端到端训练有望突破,人形机器人具身智能未来可期。