腾讯清华联合提出图像到视频生成方法-Follow-Your-Click：点击图像并加上简单提示词就可让图像动起来！

腾讯清华联合提出图像到视频生成方法-Follow-Your-Click：点击图像并加上简单提示词就可让图像动起来！

news/2025/7/3 13:28:27/文章来源:https://blog.csdn.net/xs1997/article/details/137843693

Follow-Your-Click只需单击一次和简短的提示就可以让图像的某一部分动起来，还支持不同的动作表达，比如微笑，悲伤，跳舞……

相关链接

论文链接：https://arxiv.org/abs/2403.08268

项目链接：https://github.com/mayuelala/FollowYourClick

论文阅读

通过简短提示进行开放域区域图像动画

摘要

尽管最近在图像到视频生成方面取得了进展，但更好的可控性和局部动画却很少被探索。大多数现有的图像到视频的方法不具有局部意识，并且倾向于移动整个场景。然而，人类艺术家可能需要控制运动不同物体或区域的。此外，当前的I2V方法需要用户不仅要描述目标运动，还要提供冗余的帧内容详细描述。这两个问题阻碍了当前I2V工具的实际应用。

在本文中，我们提出了一个实用的框架Follow-Your-Click，通过简单的用户点击(用于指定要移动的内容)和一个简短的按钮来实现图像动画运动提示符(用于指定如何移动)。从技术上讲，我们建议第一帧掩蔽策略，显著提高视频生成质量运动提示数据集提高模型短提示跟踪能力。

为了进一步控制运动速度，我们提出了基于流的方法运动幅度控制更能控制目标运动的速度精确。我们的框架具有更简单而精确的用户控制和更好的生成性能优于以前的方法。大量的实验比较了7条基线，包括商业工具和研究方法，在8个指标上表明了我们方法的优越性。

区域图像动画使用点击和简短提示。我们提出一种新的框架，通过用户提供的点击(移动到哪里)和简短的动作提示(如何移动)，促进本地感知图像动画。我们的框架可以提供生动的对象运动，背景运动(例如，风暴)，和多个对象移动。最好使用acrobatreader查看，它支持单击在视频上播放动画。

方法

框架概述。我们的框架的关键组件是第一帧掩蔽，运动增强模块的短动作提示跟随，和基于流量的运动强度控制。在推理过程中，区域动画可以是通过用户点击和简短的动作提示实现。

实验

基线方法定量比较

我们的方法演示跨多个指标的最佳或可比较的性能。表现最好的方法的指标用红色突出显示，而那些用于第二好的方法用蓝色突出显示。

基线方法定性比较

我们与gen2[3]、Genmo[4]、Genmo[3]等封闭的商业工具进行比较Pika[6]和包括Animate-anything[19],Dynamicrafter[78], I2VGen-XL[5]。

下面来看一些实际效果：

不同方法生成的动画

我们将我们的方法与最新的开源最先进的动画方法进行定性比较，包括Animate anything, SVD, Dynamicrafter和I2VGen-XL。我们还将我们的方法与商业工具(如Gen-2、Genmo和Pika Labs)进行了比较。

运动强度控制

在这里我们展示了我们的光流运动幅度控制(OFM)和基于FPS的运动幅度控制(FPS)之间的比较。

消融实验

在这里，我们展示了构建的短提示数据集(D)和运动增强模块(M)消融的定性结果。运动提示是“运行”。

限制

正如视频中所示，我们的方法在生成大型和复杂的人体动作方面受到限制。这可能是由于动作的复杂性和相关训练样本的稀缺性。

结论

在本文中，我们提出了Follow-Your-Click来解决生成问题可控和本地动画。据我们所知，我们是第一个I2V框架，能够通过一个简单的点击区域还有一个简短的动作提示生成图像动画。

为了支持这一点，首先将提示分段工具SAM合并到我们的框架中，以方便用户使用交互。

为了实现短提示跟踪能力，我们提出了一个运动增强模块和一个构建的短提示数据集来实现这一目标。
为了提高生成的时间运动质量，我们提出了第一帧屏蔽策略，显著提高了生成性能。
为了使准确的学习运动速度，我们利用光流得分精确控制运动幅度。

我们的实验结果强调与现有基线相比，我们的方法的有效性和优越性。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/821243.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

vue.js入门

vue.js入门

vue是一个渐进js框架渐进式:按需引入Vue.js的部分功能,不用把整个框架都导入 1. 传统开发方式用vue.global.js <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"…

阅读更多...

Redis提供两种持久化机制RDB和AOF机制

Redis提供两种持久化机制RDB和AOF机制

RDB RDB持久化是把当前进程数据生成快照保存到硬盘的过程。所谓内存快照，就是指内存中的数据在某一个时刻的状态记录。这就类似于照片，当你给朋友拍照时，一张照片就能把朋友一瞬间的形象完全记下来。RDB 就是Redis DataBase 的缩写。优点…

阅读更多...

开源OCR模型对比

开源OCR模型对比

引言目前，开源的项目中有很多 OCR 模型，但是没有一个统一的基准来衡量哪个是更好一些的。面对这么多的模型，让我们有些不知所措。为此，最近一段时间以来，我一直想要构建这样一个基准，现在来看&#xff0…

阅读更多...

当当图书网数据采集分析：10万条数据的深入洞察

当当图书网数据采集分析：10万条数据的深入洞察

基于搜索结果，我将为您提供一个关于当当图书网数据采集的文章框架，假设我们已经有了10万条数据的采集结果。请注意，由于没有具体的数据文件，以下内容将是一个示例性的框架，您可以根据实际采集到的数据进行填充和调整。…

阅读更多...

动态规划专练（ 231.打家劫舍Ⅱ）

动态规划专练（ 231.打家劫舍Ⅱ）

231.打家劫舍Ⅱ 你是一个专业的小偷，计划偷窃沿街的房屋，每间房内都藏有一定的现金。这个地方所有的房屋都围成一圈 ，这意味着第一个房屋和最后一个房屋是紧挨着的。同时，相邻的房屋装有相互连通的防盗系统，如果两间…

阅读更多...

锁－java

锁－java

悲观锁一上来就加锁，没有安全感， 每次只能一个线程进入，访问完毕后访问完毕后再解锁，性能较差。乐观锁一开始是不上锁的，认为是没有问题的，大家一起跑， 等要出现线程安全的时候&#xff…

阅读更多...

1.2MHz，固定频率白光LED驱动器

1.2MHz，固定频率白光LED驱动器

一、产品概述 TX6216是一款升压转换器，设计用于通过单节锂离子电池驱动多达7个串联的白光LED。 TX6216采用电流模式，固定频率架构来调节LED电流，LED电流通过外部电流检测电阻测量。其低104mV反馈电压可降低功率损耗并提高效率。 TX6216具有…

阅读更多...

华为海思数字芯片设计笔试第六套

华为海思数字芯片设计笔试第六套

声明下面的题目作答都是自己认为正确的答案，并非官方答案，如果有不同的意见，可以评论区交流。这些题目也是笔者从各个地方收集的，感觉有些题目答案并不正确，所以在个别题目会给出自己的见解，欢迎大家讨论…

阅读更多...

懒人建站工具过时了？试试这6个WordPress主题，1小时实现高效建站

懒人建站工具过时了？试试这6个WordPress主题，1小时实现高效建站

懒人建站工具，凭借简单易用、快速上手和个性化定制的特点，为不熟悉代码和程序的人提供了搭建美观实用网站的便捷途径。无需专业的前端开发知识，无需雇佣专业开发人员，用户便能轻松实现网站搭建，满足个人或企业需求。懒…

阅读更多...

13.C++常用的算法_查找算法

13.C++常用的算法_查找算法

文章目录遍历算法1. adjacent_find代码工程运行结果 2. binary_search()代码工程运行结果 3. count()代码工程运行结果 4. count_if()代码工程运行结果遍历算法 1. adjacent_find 代码工程查找相邻元素是否存在,不存在返回容器最后位置的迭代器#define _CRT_SECURE_NO_WA…

阅读更多...

Rustdesk如何编译代码实现安装后，不会在右下角出现托盘图标

Rustdesk如何编译代码实现安装后，不会在右下角出现托盘图标

环境： Rustdesk1.1.9 问题描述： Rustdesk如何编译代码实现安装后，不会在右下角出现托盘图标解决方案： 安装后只有自定义进程图标详细方案，有需要私聊

阅读更多...

2023年城市交通系统客流量预测算法赛

2023年城市交通系统客流量预测算法赛

ref: 2023中国华录杯数据湖算法大赛该比赛马上就要结束，0424日答辩。获得了前六的名次，本次比赛给我的感觉就是一言难尽呐。答辩结束再补充吧。

阅读更多...

typedef,#define,asserr，exit函数，free函数

typedef,#define,asserr，exit函数，free函数

一.typedef的应用 1.给已定的变量类型起个别名加不加typedef，类型不变 （加之前是个数组，加之后是数组类型； 加之前是个函数指针，加之后是函数指针类型；） struct _person {char name[20];in…

阅读更多...

PySpark预计算ClickHouse Bitmap实践

PySpark预计算ClickHouse Bitmap实践

1. 背景 ClickHouse全称是Click Stream，Data WareHouse，是一款高性能的OLAP数据库，既使用了ROLAP模型，又拥有着比肩MOLAP的性能。我们可以用ClickHouse用来做分析平台快速出数。其中的bitmap结构方便我们对人群进行交并。Bitmap位…

阅读更多...

中国新质生产力水平（原始+测算+结果）-企业和各省数据集

中国新质生产力水平（原始+测算+结果）-企业和各省数据集

新质生产力是一个至少涵盖科技、绿色和数字三大方面的集成体，对其评价测度需要依托多属性综合评价方法。文章构建了包含3个一级指标、6个二级指标和18个三级指标的综合体系，采用改进的熵权-TOPSIS方法对指标进行赋权，从而得到全国新质生产力发…

阅读更多...

rhce.定时任务和延迟任务项目

rhce.定时任务和延迟任务项目

一 . 在系统中设定延迟任务要求如下： 在系统中建立 easylee 用户，设定其密码为 easylee 延迟任务由 root 用户建立要求在 5 小时后备份系统中的用户信息文件到/backup中确保延迟任务是使用非交互模式建立确保系统中只有 root 用户和easylee用户可以…

阅读更多...

Spring学习（二）

Spring学习（二）

图解： 2.核心容器总结 2.2.1 容器相关 BeanFactory是IoC容器的顶层接口，初始化BeanFactory对象时，加载的bean延迟加载 ApplicationContext接口是Spring容器的核心接口，初始化时bean立即加载 ApplicationContext接口提供基础的be…

阅读更多...

阿里云优惠券种类介绍及领取教程详解

阿里云优惠券种类介绍及领取教程详解

随着互联网技术的快速发展，越来越多的企业和个人开始将业务和数据迁移到云端。阿里云作为国内领先的云服务提供商，为广大用户提供了丰富多样的云产品和服务。为了回馈用户，阿里云经常推出各种优惠活动，其中优惠券就是其中一种常见…

阅读更多...

Anaconda 创建 Python 虚拟环境

Anaconda 创建 Python 虚拟环境

查看当前已经安装的python环境 conda env list 创建 python 虚拟环境 conda create -n test # test 为虚拟环境名指定 python 版本为 3.6 conda create -n test python3.6激活虚拟环境 activate test假如想安装 numpy 包 conda install numpy 或者： pip in…

阅读更多...

力扣经典150题解析之二十八：盛最多水的容器

力扣经典150题解析之二十八：盛最多水的容器

目录力扣经典150题解析之二十八：盛最多水的容器1. 介绍2. 问题描述3. 示例4. 解题思路5. 算法实现6. 复杂度分析7. 测试与验证测试用例设计测试结果分析 8. 总结9. 参考文献感谢阅读力扣经典150题解析之二十八：盛最多水的容器 1. 介绍在这篇文章中&…

阅读更多...

最新文章