Meta 发布Sapiens人类视觉模型,2D 姿势估计、人体分割、深度估计

meta提出了 Sapiens,人类基础视觉模型。这是一个以人为中心的视觉任务的模型。包括: 2D 姿势估计、人体部位分割、深度估计和表面法线预测。

此模型本身支持 1K 高分辨率推理,Sapiens在超过 3 亿张人类图像上预训练的模型进行微调,就可以非常轻松地适应各个任务。在相同的计算预算下,对精选的人类图像数据集进行自我监督预训练可以显著提高各种以人类为中心的视觉任务的性能。

动图封面

即使标记数据稀缺或完全合成,经过Sapiens模型的微调模型,也对数据表现出显著的泛化能力。Sapiens简单的模型设计还带来了可扩展性——随着将Sapiens模型参数数量从 0.3 亿扩展到 20 亿,跨任务的模型性能得到提高。 Sapiens 在各种以人类为中心的基准测试中超越现有基准。在 Humans-5K(姿势估计)上实现了 7.6 mAP、Humans-2K(seg人体分割)17.1 mIoU、Hi4D(深度估计)相对 RMSE 22.4% 和 THuman2(表面法线预测)上现有技术显著改进53.5% 相对角度误差。

动图封面

Sapiens 原生支持1024×1024高分辨率图像,而之前的 SOTA 模型(如 Dino v2)则使用 224×224。Sapiens 系列模型是从头开始构建的视觉转换器。Sapiens首先使用Masked AutoEncoder (MAE)方法进行预训练,然后针对特定任务进行微调。预训练是使用自监督训练在未标记的 Human-300M 数据集上进行的,数据集包含 1.2 万亿个标记。与 ViT 模型类似,图像被划分为不重叠的固定大小的块。

每个图像标记(块大小 = 16 x 16)占整个图像(1024×1024)的 0.02%,与标准 ViT 不同,单个块占 0.4%。

人体姿态估计

人体姿态估计是很多计算机视觉模型的关键任务,包括我们前期介绍过的 OpenCV,mediapipe,yolo系列等,都涉及到人体姿态检测。但是Sapiens 姿势估计模型使用每个关键点的热图来确定姿势,从而为 K 个关键点生成 K 个热图。

动图封面

训练数据集包含 308 个全身关键点,其中 243 个为面部关键点,40 个为手部关键点,而其他姿势估计数据集通常有 68 个面部关键点。这些多余的关键点有助于Sapiens模型改善眼睛、嘴唇、鼻子和耳朵周围的姿态表现。

Sapiens 2B 是 SOTA人体姿势估计模型,在 Humans-5K 测试数据集上取得了最高 AP。它比 DWPose-L 高出 +7.1 AP。

人体分割

对象分割,对计算机视觉技术提出了更加严苛的边界需求,而 meta 发布的分割一切模型,其分割效果很好,而针对人体分割,yolo系列模型也可以进行人体的分割,mediapipe模型也可以进行人体分割,但是Sapiens是针对人体视觉任务的微调模型。此任务的目标是将输入图像中的每个像素分为 C 类,例如手臂、腿、躯干等。对于每个像素,模型都会预测一个概率图,表明该像素在所有身体部位中属于某个特定类别。

动图封面

使用的数据集包含 0.1 M 条以 4k 分辨率手动创建的标注图形。该模型可以预测 28 个不同的身体部位,并勾勒出四肢、腿部、嘴唇等的更精细细节。为了评估身体部位分割任务的性能,对 FCN、SegFormer、Mask2Former 和 DeepLabV3+ 等模型进行了微调,并在用于训练 Sapiens 的同一数据集上进行了测试。其最小的 Sapiens 0.3B 模型的表现优于之前的 SOTA 模型,如 Mask2Former 和 DeepLabV3+。最大的模型 Sapiens-2B 在 Humans-2K 测试集上以 81.2 mIOU 和 89.4 mAcc 取得了出色的表现。

深度估计

我们前期介绍过字节跳动发布depth-anything-v2深度模型,“Depth Anything V2”模型是原始Depth Anything模型的改进版,专注于提升单目深度估计能力。单目深度估计是指使用单张图像来预测场景深度的过程,这对于计算机视觉、机器人技术和增强现实应用至关重要。

而人体深度估计模型架构与分割类似,但解码器的输出通道被修改为 1。因为深度估计是一个回归任务,其中输出是每个像素的单个深度值,而不是多类概率图。为了计算相对深度,使用最大和最小像素值将深度值归一化在 0 和 1 之间。在大多数情况下,Sapiens 的所有变体都明显比其同类表现更好。

表面法线估计

人体表面法线是人体某一点与表面垂直的向量,指三维空间中表面的方位。表面法线对于确定光线如何与身体表面相互作用以产生逼真的反射特别有用。在 Sapiens 模型中,表面法线估计器为人体图像的每个像素生成 3 个输出通道,分别对应于法线的 x、y、z 坐标。它指的是 3D 空间中表面的方向。

动图封面

使用相同的深度估计数据集来评估Sapiens模型在类似表面法线估计任务上的性能。在这里可以看到 Sapiens-2B 始终保持非常低的平均角度误差。

而Sapiens模型是 meta 开源的模型,其代码与预训练模型都可以在 GitHub 上面找到,当然,也可以直接在 hugging face 上面在线体验。

直接点击需要的任务,进入任务界面,上传自己的图片即可,当然也支持视频。

可以直接在 hugging face 上面在线执行人体姿态检测,人体分割,深度预测与人体表面法线预测等任务。关于代码方面的实现,我们后期进行分享。

https://github.com/facebookresearch/sapiens/tree/main?tab=readme-ov-file
https://about.meta.com/realitylabs/codecavatars/sapiens/
https://huggingface.co/spaces/facebook/sapiens-pose
https://rawalkhirodkar.github.io/sapiens/
https://learnopencv.com/sapiens-human-vision-models/更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:启示AI科技

 动画详解transformer  在线教程 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/61098.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NLP论文速读(EMNLP2024)|多风格可控生成的动态多奖励权重

论文速读|Dynamic Multi-Reward Weighting for Multi-Style Controllable Generation 论文信息: 简介: 本文探讨了文本风格在沟通中的重要性,指出文本风格传达了除原始语义内容之外的多种信息,如人际关系动态(例如正式…

鸿蒙中的Image组件如何引用网络图片

1.引用网络图片资源 引入网络图片需要申请权限ohos.permission.INTERNET,此时,Image组件的src参数为网络图片的链接,为了成功加载网络图片,您需要在module.json5文件中申请网络访问权限 注意:实际可用的时候&#xff0…

七天掌握SQL--->第七天:项目实践与总结

一、项目实践 1.1 项目背景 假设我们正在开发一个名为“在线图书管理系统”的项目。该项目旨在帮助图书馆管理员管理图书的借阅、归还、库存等操作,同时为读者提供一个便捷的图书查询和借阅平台。 1.2 数据库设计 1.2.1 需求分析 根据项目的需求,我…

React Hooks中use的细节

文档 useState useState如果是以函数作为参数,那要求是一个纯函数,不接受任何参数,同时需要一个任意类型的返回值作为初始值。 useState可以传入任何类型的参数作为初始值,当以一个函数作为参数进行传入的时候需要注意&#xff…

springboot 配置跨域访问

什么是 CORS? CORS,全称是“跨源资源共享”(Cross-Origin Resource Sharing),是一种Web应用程序的安全机制,用于控制不同源的资源之间的交互。 在Web应用程序中,CORS定义了一种机制&#xff0…

应用于蛋白-小分子柔性对接的等变VAE模型 - FlexPose 测评

FlexPose 应用于蛋白-小分子柔性对接场景下,能够在欧几里得空间中直接对蛋白-小分子复合结构的进行预测的等变神经网络模型,而无需传统的采样和评分策略。此模型考虑了蛋白氨基酸主链和侧链的柔性,会根据小分子的情况对氨基酸的侧链和主链进行…

【Web前端】如何构建简单HTML表单?

HTML 表单是 Web 开发中非常重要的组成部分。它们是与用户交互的主要方式,能够收集用户输入的数据。表单的灵活性使它们成为 HTML 中最复杂的结构之一,但若使用正确的结构和元素,可以确保其可用性和无障碍性。 表单的基本结构 HTML 表单使用…

乌班图单机(不访问外网)部署docker和服务的方法

面向对象:Ubuntu不能访问外网的机子,部署mysql、redis、jdk8、minio 过程: 1、安装docker(照着图去这里找对应的下载下来https://download.docker.com/linux/static/stable/),将7个docker官网下载的文件下载下来后,传上去服务器随便一个文件夹或者常用的opt或者/usr/lo…

IDEA全局设置-解决maven加载过慢的问题

一、IDEA全局设置 注意:如果不是全局设置,仅仅针对某个项目有效;例在利用网上教程解决maven加载过慢的问题时,按步骤设置却得不到解决,原因就是没有在全局设置。 1.如何进行全局设置 a.在项目页面,点击f…

狂野飙车8+(Asphalt 8+) for Mac 赛车竞速游戏 安装教程

Mac分享吧 文章目录 狂野飙车8(Asphalt 8) for Mac 赛车竞速游戏软件 效果图展示一、狂野飙车8(Asphalt 8) 赛车竞速游戏 Mac电脑版——v2.1.11️⃣:下载软件2️⃣:安装软件2.1 左侧安装包拖入右侧文件夹中,等待安装完成,运行软件…

标贝科技:自动驾驶中的数据标注类别分享

国内的自动驾驶行业正处于快速发展阶段。伴随随着芯片算力的提升、算法的优化以及数据采集标注传感设备的日益成熟,自动驾驶技术正逐步从实验室转向商业化应用。电车时代的来临,加速了自动驾驶时代的全面降临,23年国内汽车行业内卷的开始&…

(详细文档!)java swing学生信息管理系统 +mysql

第一章:系统功能分析 1.1、系统简介与开发背景 学生信息管理系统是在信息化时代,特别是在教育领域中产生的。随着学校规模的不断扩大和信息化技术的不断发展,传统的纸质档案管理方式已经无法满足学校对学生信息管理的需求,因此需…

matlab -炉温串级控制PID

1、内容简介 略 92-可以交流、咨询、答疑 2、内容说明 略 基于PID的反馈控制能够使得炉温控制达到较好的控制效果,但系统的调节时间还是较长,一般都大于20分钟。考虑能否用其他系统来改进控制系统使得调节时间变短的同时还能满足控制要求。一种最直接…

#渗透测试#红蓝攻防#HW#经验分享#溯源反制

免责声明 本教程仅为合法的教学目的而准备,严禁用于任何形式的违法犯罪活动及其他商业行为,在使用本教程前,您应确保该行为符合当地的法律法规,继续阅读即表示您需自行承担所有操作的后果,如有异议,请立即停止本文章阅 目录 一、溯源反制 1、溯源反制的重要性 2、溯源…

探索Python WebSocket新境界:picows库揭秘

文章目录 探索Python WebSocket新境界:picows库揭秘第一部分:背景介绍第二部分:picows库概述第三部分:安装picows库第四部分:简单库函数使用方法第五部分:场景应用第六部分:常见Bug及解决方案第…

dmdba用户资源限制ulimit -a 部分配置未生效

dmdba用户资源限制ulimit -a 部分配置未生效 1 环境介绍2 数据库实例日志报错2.1 mpp01 实例日志报错2.2 mpp02 实例日志报错 3 mpp02 服务器资源限制情况4 关闭SELinux 问题解决4.1 临时关闭 SELinux4.2 永久关闭 SELinux 5 达梦数据库学习使用列表 1 环境介绍 Cpu x86 Os Ce…

安卓悬浮窗应用外无法穿透事件问题

现象: 应用内悬浮窗如何设置了 WindowManager.LayoutParams.FLAG_NOT_FOCUSABLE WindowManager.LayoutParams.FLAG_NOT_TOUCHABLE在自己应用内事件穿透正常,但到应用外就无法点击。 原因: 解决方法: layoutParams.alpha 0.8f …

c++趣味编程玩转物联网:基于树莓派Pico控制有源蜂鸣器

有源蜂鸣器是一种简单高效的声音输出设备,广泛应用于电子报警器、玩具、计时器等领域。在本项目中,我们结合树莓派Pico开发板,通过C代码控制有源蜂鸣器发出“滴滴”声,并解析其中涉及的关键技术点和硬件知识。 一、项目概述 1. 项…

ubuntu+ROS推视频流至网络

目录 概述 工具 ros_rtsp 接受流 web_video_server 源码安装 二进制安装 ros接收rtsp视频流 总结 概述 ros_rtsp功能包可以将ros视频流以rtsp形式推送 web_video_server功能包可以将ros视频话题推HTTP流 rocon_rtsp_camera_relay可以接受同一网段下的rtsp视频流输出为…

探索光耦:光耦安全标准解读——确保设备隔离与安全的重要规范

在现代科技日新月异的今天,光耦(光电耦合器)作为电子设备中不可或缺的隔离元件,其重要性不言而喻。它不仅在电源调控、工业自动化及医疗设备等关键领域大显身手,更是确保系统电气隔离与运行稳定的守护神。特别是在保障…