如何用AI主动突出画面主体!涂鸦新方案助剪辑、工业巡检、医疗影像等领域,实现自动追踪+智能放大

随着智能 IPC 设备(如安防摄像头、宠物陪伴机器人、婴儿监视器等)日益普及,越来越多的生活场景被实时记录。然而在实际使用中,由于设备安装位置不当、广角镜头视野过大等原因,经常会出现拍摄主体占比过小的问题,导致"全景清晰而主体模糊",严重影响用户的观看体验。

在这里插入图片描述

一、涂鸦 AI 推理模型自动突出主体

因此,涂鸦重磅推出 On-App AI 视频主体突出解决方案,利用涂鸦赋能 App 的 AI 能力对画面进行实时目标检测,自动定位、识别主体后,再利用图像算法对其进行智能自适应放大,使主体更突出、画面更聚焦。最后,对处理完成的视频进行编码与封装,即可输出经过优化的视频内容。

该方案适合拓展应用至生活各个场景中,如:

  • 在室内监护中,可用于婴儿看护、宠物监测、宠物机器人等设备;
  • 在医疗影像或科研中,可结合内镜或其他医疗设备突出术野关键区域;
  • 在户外记录时,可用于智能喂鸟器、狩猎摄像机、自然景观摄像机等设备;
  • 在安防与工业检测中,可用于巡检、维修等需要检查局部细节的设备。

a.例如针对家庭场景里的小猫,摄像头会自动识别主体并进行画面放大👇:

在这里插入图片描述
在这里插入图片描述
b.在户外复杂场景下,涂鸦 On-App AI 视频主体方案依然能够精准识别目标对象,并进行动作追踪和画面放大。戳视频,直观体验生成效果👇:

【插入视频】

二、详解涂鸦 AI 视频主体突出技术

1、整体技术架构介绍

在涂鸦所有的 AI 产品/硬件解决方案中, 我们打通了端到端的 AI 能力:即设备端、云端、App 端三端协同。通过将先进的 AI 推理模型部署到涂鸦赋能 App 上,能够助力品牌商与开发者将先进的 AI 技术无缝集成到移动设备中,打造更灵活的 AI 架构、更优的用户体验、更安全的计算能力。

  • 在移动端模型的部署中,涂鸦采用了轻量化技术架构( TensorFlow Lite 等),这种技术架构的优势就在于具备高效推理、低延迟、低功耗等特点,并且支持本地模型实现离线运行、系统更新、部署等按需加载的机制,助力提高运行效率,打造更灵活的 AI 架构。
  • 图像处理技术涂鸦采用了 OpenGL ES,可实现更高效的渲染与优化,充分利用 GPU 对图像处理过程进行加速;
  • 视频编解码技术采用涂鸦平台提供的硬件解码,能够提升视频处理性能、降低 CPU 负载,确保视频流畅播放与低功耗运行。

在这里插入图片描述

(涂鸦 AI 视频主体突出技术架构图)

2、技术亮点

2.1 拥有更灵活的 AI 架构:轻量化和动态化

在这里插入图片描述
(轻量化与动态化运行流程示意图)

2.1.1 轻量级检测模型

涂鸦采用专门优化移动端的轻量级对象检测模型 EfficientDet-D0,该模型参数少、计算量小、推理速度快,可以精准检测视频中指定主体(如宠物、人物)的位置与类别。同时,基于智能分析能力可快速筛除无主体片段,有效降低计算负担,提升处理效率。

2.1.2 模型动态化

采用按需加载的动态模型管理机制,支持模型在线下载、更新与部署,确保视频应用始终使用最优模型版本,同时减少初始安装包体积,提高运行效率。

2.2 更优的用户体验:实时性和高效率

在这里插入图片描述
2.2.1 实时交互处理

该方案支持实时响应用户的交互需求。依托本地计算的高效运行,可确保流畅无延迟的用户体验,无需依赖网络,即可实现快速响应与实时处理。

2.2.2 新增防抖图像算法

在检测视频主体位置的过程中,检测框可能会发生抖动偏移,从而导致主体放大的画面也会产生抖动;针对这一问题,涂鸦增加抖动阈值,确保视频处理画面时的平滑流畅。

2.2.3 微调模型以提高准确度

涂鸦积累了海量不同场景下的主体图片,覆盖不同光照条件下白天黑夜等多个场景,数据脱敏之后,涂鸦对这些模型进行精心的训练微调,确保模型推理过程中的泛化能力。

2.3 更安全的计算能力:低成本和隐私保护

在这里插入图片描述
2.3.1 降低处理成本

涂鸦支持开发者动态调整视频帧的推理策略。在没有检测到视频主体的时候,系统会间隔多帧识别一帧;当检测到主体时,就会自动调整为间隔 3 帧检测一帧。这样就能充分利用移动端的硬件加速,显著提升视频编解码速度,降低 CPU 负载,提高整体性能。

而且,本地化处理相比云端处理的成本更低、更能节约云端负荷,算力消耗每万次减少 25 TFLOPs,节省成本约 10% 左右。

2.3.2 保护隐私安全

该方案的所有数据处理均在本地完成,显著降低时延、提高响应速度,同时避免数据外传,增强用户隐私保护,为应用提供更安全高效的计算环境。

三、开发教程与问题咨询

1、如何实现 AI 视频主体突出功能的开发?

涂鸦 On-App AI 视频主体突出方案是基于涂鸦智能 IPC 功能所打造,如要开发该方案需要先对接 IPC SDK,设备端方案可参考 IPC SDK 开发:

具体开发教程见如下链接👇:

https://t.tuya.com/AY1D3VbxRO

2、技术原理介绍

如需了解更多有关 AI 视频主体突出的技术原理和开发介绍,可复制下方链接查看详情介绍👇:

https://developer.tuya.com/cn/miniapp/solution-ai/case

在这里插入图片描述

3、开发者问题咨询

开发中如遇到任何问题,可以登录涂鸦开发者论坛进行提问,将有技术小哥随时为你解答👇:

https://www.tuyaos.com/viewforum.php?f=3

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/78265.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据湖DataLake和传统数据仓库Datawarehouse的主要区别是什么?优缺点是什么?

数据湖和传统数据仓库的主要区别 以下是数据湖和传统数据仓库的主要区别,以表格形式展示: 特性数据湖传统数据仓库数据类型支持结构化、半结构化及非结构化数据主要处理结构化数据架构设计扁平化架构,所有数据存储在一个大的“池”中多层架…

当智驾成标配,车企暗战升级|2025上海车展

文|刘俊宏 编|王一粟 智能化无处不在的2025年上海车展,回归了卖车的初衷。 光锥智能在展会暴走两天,最大的感触是今年的车展少了争奇斗艳,多了些许务实。 回顾智能汽车时代的三场重要车展。2023年的上海车展充满了…

如何在Spring Boot中禁用Actuator端点安全性

在 Spring Boot 应用中,Spring Boot Actuator 提供了一系列用于监控和管理应用的端点(如 /actuator/health、/actuator/metrics),这些端点默认可能受到 Spring Security 的保护,要求身份验证或授权。然而,在…

【mongodb】系统保留的数据库名

目录 1. admin2. config3. local4. test(非严格保留,但常作为默认测试数据库)5. 注意事项6. 其他相关说明 1. admin 1.用途:用于存储数据库的权限和用户管理相关数据。2.特点:该数据库是 MongoDB 的超级用户数据库&am…

Redis是单线程的,如何提高多核CPU的利用率?

一句话回答: Redis 是单线程处理客户端命令,但可以通过 多实例部署、I/O 多路复用、后台线程 Redis 6 的 I/O Thread 支持,来充分利用多核 CPU。 一、Redis 单线程 ≠ 整个 Redis 都是单线程! Redis 主要的 网络事件 命令执行 …

关于mysql的事务和索引

1. 事务四大特性(ACID) 原子性:事务的操作要么全部成功,要么全部失败回滚,不可分割。 一致性:事务执行前后,数据必须满足业务规则(如账户总额不变)。 隔离性&#xff1…

【Python】保持Selenium稳定爬取的方法(防检测策略)

selenium 防检测策略的方法汇总: 合理设置延迟:请求间添加随机延迟 (2-10秒) 限制爬取频率:控制每小时/每天的请求量 轮换用户代理:准备至少10个不同的User-Agent 使用住宅代理:优先选择高质量的住宅代理IP 处理验…

SpringSecurity源码解读AbstractAuthenticationProcessingFilter

一、介绍 AbstractAuthenticationProcessingFilter 是 Spring Security 框架里的一个抽象过滤器,它在处理基于表单的认证等认证流程时起着关键作用。它继承自 GenericFilterBean,并实现了 javax.servlet.Filter 接口。此过滤器的主要功能是拦截客户端发送的认证请求,对请求…

什么是DDD?为什么它正在取代传统架构?

什么是DDD?为什么它正在取代传统架构? 1. 传统开发模式的痛点 在经典的MVC架构中,开发流程往往从数据库表结构设计开始,业务逻辑散落在Service层,随着需求迭代容易形成「大泥球」代码: 实体类变成纯粹的…

基于外部中中断机制,实现以下功能: 1.按键1,按下和释放后,点亮LED 2.按键2,按下和释放后,熄灭LED 3.按键3,按下和释放后,使得LED闪烁

题目: 参照外部中断的原理和代码示例,再结合之前已经实现的按键切换LED状态的实验,用外部中断改进其实现。 请自行参考文档《中断》当中,有关按键切换LED状态的内容, 自行连接电路图,基于外部中断机制,实现以下功能&am…

在SQL中,FROM子句中的子查询必须指定别名,即使后续未引用该别名

FROM子句中的子查询必须指定别名 示例错误示例及原因:总结: 在SQL中, FROM子句中的子查询必须指定别名, 即使后续未引用该别名 示例 查询馆藏图书最多的作者姓名及馆藏数量 SELECT 作者, COUNT(图书编号) AS 馆藏数量 FROM 图…

问道数码兽 怀旧剧情回合手游源码搭建教程(反查重优化版)

本文将对"问道数码兽"这一经典卡通风格回合制手游的服务端部署与客户端调整流程进行详细拆解,适用于具备基础 Windows 运维和手游源码调试经验的开发者参考使用。教程以实战为导向,基于原始说明内容重构优化,具备较高的内容查重避重…

Shell脚本-for循环应用案例

在Shell脚本编程中,for循环是一种强大的工具,用于处理重复性任务。无论是批量处理文件、遍历目录内容还是简单的计数任务,for循环都能提供简洁而有效的解决方案。本文将通过几个实际的应用案例来展示如何使用for循环解决具体的编程问题。 案…

Chrmo手动同步数据

地址栏输入 chrome://sync-internals分别点击这2个按钮即可触发手动同步

为什么圆形在GeoJSON中被表示为多边形(Polygon)而不是圆形类型

GeoJSON规范中没有"圆形"类型 GeoJSON是一种用于表示地理空间数据的标准格式,它的规范中只定义了以下几种基本几何类型: Point (点) LineString (线) Polygon (多边形) MultiPoint (多点) MultiLineString (多线) MultiPolygon (多多边形) GeometryCollection (几…

大数据组件学习之--Kafka 安装搭建

一、前置环境 在搭建kafka之前,请确认自己的hadoop、zookeeper是否搭建完成且可正常运行 二、下载并上传安装包(链接为百度网盘) kafka安装包 tar -zxvf /opt/software/kafka_2.12-2.4.1.tgz -C /opt/module/ 进入解压后的目录更改文件名…

PyQt6基础_pyqtgraph_折线图with缩放调节

目录 字符型横坐标代码 折线图代码 运行 创建新类,继承pg.PlotWidget,在新类中实现业务内容,重写pg.PlotWidget中的wheelEvent方法并使用业务数据实现比较理想的缩放状态。 字符型横坐标代码 class StrAxisItem(pg.AxisItem):def __init…

联邦元学习实现个性化物联网的框架

随着数据安全和隐私保护相关法律法规的出台,需要直接在中央服务器上收集和处理数据的集中式解决方案,对于个性化物联网而言,训练各种特定领域场景的人工智能模型已变得不切实际。基于此,中山大学,南洋理工大学&#xf…

audio 核心服务AudioPolicyService 和AudioFlinger启动流程

目录 1、audioserver启动 2、AudioPolicyService启动 3、AudioFlinger启动 audio的核心服务有两个,AudioPolicyService 和AudioFlinger他们到在audioserver一个进程中 1、audioserver启动 设备开机,系统启动时将执行 /system/etc/init/audioserver.rc…

反爬虫机制中的验证码识别:类型、技术难点与应对策略

在互联网数据抓取领域,验证码识别是爬虫过程中的关键环节之一。下面对常见验证码类型、技术难点及应对策略进行详细解析,并提供多种场景下的代码实现示例。 一、验证码类型与技术难点 (一)图形验证码 1. 字符验证码 特征&#…