阿里云大模型「让照片跳舞」刷屏朋友圈,有哪些信息值得关注?

介绍

大家好,我分享聊聊阿里通义千问APP中全民舞王功能。

网络热舞结合AI视频,这是以后不用学习跳舞?

可以尝试下效果,一张图片生成视频。

APP快速使用

搜索下载通义千问APP
在这里插入图片描述
打开APP,选中一张照片来跳舞。
在这里插入图片描述
在这里插入图片描述
这里上传照片原则:身体保持全身站立,挺胸抬头,图像中不要有其他人,背景简单些。
在这里插入图片描述

AI视频一张图片跳科目三

图解原理

虽然一些技术没有开源,我们可以根据阿里通义实验室自研视频生成模型 Animate Anyone,推演原理。

我们通过图讲解下演化,Animate Anyone用于人物动画的图像到视频合成方法,基于扩散模型重构创新所得。

图解扩散模型生成过程

在这里插入图片描述
VAE编码器(输出矩阵)-> UNet (完成当前时间步 t 的噪声预测) -> SD1.x 系列(64x64x4 的向量) -> 采样器 (重复 N 次) 去除噪声 -> VAE解码器 -> 生成图像。

具体可以看我原先的讲解扩散模型

图解Animate Anyone生成过程

https://arxiv.org/pdf/2311.17117.pdf
参考图像和姿态序列输入,经过VAE编码器,创建一个矩阵(潜在的表示),用到CLIP (文本-图像映射)引导角色原始外观,姿态引导与U-Net结合,类似上述过程,在空间和时间中去噪,输出一个合成视频。

该架构强调保持角色的详细特征、运动的连续性和对动画的控制。

该模型解决了图像到视频合成的挑战,如保持详细信息和确保生成动画的时间稳定性。

论文在从静态图像生成角色视频方面呈现了最先进的结果。

总结

阿里云大模型 Animate Anyone就像一个超级导演。

与过去那些导演只会让演员在视频里面变来变去、动作不连贯不同,这个模型导演出来的视频,无论演员的样子还是动作都非常逼真流畅,就像真人一样。

朋友们可以一块讨论下还适合在什么领域?

我是李孟,独立开源软件开发者,SolidUI作者,对于新技术非常感兴趣,专注AI和数据领域,如果对我的文章内容感兴趣,请帮忙关注点赞收藏,谢谢!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/599423.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

了解webpack

1 概念 webpack是一个模块打包工具,他将各种不同类型的文件最终都打包成.js、.css、.png、.jpg4个类型的静态资源。 2 特点 模块化开发 用webpack之前,项目都是在html中引入一个个js文件来开发;而在webpack中,一切皆模块&#xf…

我的2023年总结:往前看,别回头

2023年已经结束,我借此机会回顾一下我的2023年,同时也为2024年立好flag。 文章目录 2023印象深刻的实战经历技术成长与规划技术分享与交流CSDN博客参加百度apollo技术讨论会 深入学习Redis源码多彩的生活张杰演唱会《漫长的季节》:往前看&am…

bat批处理文件_输出内容到文本

文章目录 1、echo str > test.txt(覆盖原有内容)2、echo str >> test.txt(不覆盖原有内容,追加) 1、echo str > test.txt(覆盖原有内容) 2、echo str >> test.txt&#xff0…

js根据二进制流获取文件类型

js根据二进制流获取文件类型 在JavaScript中,可以使用FileReader对象来读取二进制数据并判断其文件类型。 下面是一段示例代码: function getFileType(file) {return new Promise((resolve, reject) => {const reader = new FileReader();// 当加载完成时调用onload事件处…

C++64位游戏软件安全汇编与反汇编反调试 x64驱动开发进程保护进程隐藏驱动读写过保护 视频教程

├─课程1 x32dbgx64dbg驱动调试器反反调试器驱动调试环境搭载 │ 1.为什么要搭载驱动调试环境.mp4 │ 2.驱动调试环境搭载1.mp4 │ 3.三种过PG的方法.mp4 │ 4.驱动调试环境搭载2.mp4 │ 5.驱动调试与驱动进程保护对抗.mp4 │ ├─课程2 C64位游戏软件安全汇编与反汇编反…

代码随想录 718. 最长重复子数组

题目 给两个整数数组 nums1 和 nums2 ,返回 两个数组中 公共的 、长度最长的子数组的长度 。 示例 1: 输入:nums1 [1,2,3,2,1], nums2 [3,2,1,4,7] 输出:3 解释:长度最长的公共子数组是 [3,2,1] 。 示例 2&#xff1…

C++ 类和对象 (下)

初始化列表: 之前所说的构造函数初始化严格意义上来说不能叫变量初始化,只能是称为赋初值,C给出了初始化列表的概念 标准写法: class Date { public:Date (int year ,int month, int day):_year(year),_month(month),_day(day)…

C++——stack的基本概念与常用接口

1.stack基本概念 概念:stack是一种先进后出(First In Last Out,FILO)的数据结构,它只有一个出口 图形剖析: ____________________________栈底 | | 数据元素 | || |________________________| || | 数据元素 | || |________________________| || | 数据元…

如何用离散二维卷积公式描述卷积过程(说实话,我没搞懂为什么索引为什么设置成对称的模式。)

问题描述:如何用离散二维卷积公式描述卷积过程(说实话,我没搞懂为什么索引为什么设置成对称的模式。) 众所周知,描述图像卷积过程,可以使用图形法描述,也可以用公式法描述,但是具体用…

ubuntu vi 方向键乱码问题解决方案

方向键乱码问题解决方案 这个其实很简单 只需要在终端输入apt-get install vim 待安装完成就可以了

第十课:计算机心理学、教育科技及奇点,天网,计算机的未来

第十课:计算机心理学、教育科技及奇点,天网,计算机的未来 第三十八章:计算机心理学0、计算机中用到的心理学原理1、易用度2、颜色强度排序和颜色排序3、分组更好记4、直观功能5、认出VS回想6、让机器有一定的情商以及Facebook的研…

新兴电商平台都有哪些?新手做哪个比较盈利?

我是电商珠珠 近年来的电商平台层出不穷,由于购物方式发生了改变,传统的电商模式已经不能满足当前人们的需求,所以在抖音推出电商-抖音小店后,让整个电商圈发生了全新的改变。 抖音小店的出现顺势将直播电商带了起来&#xff0c…

计算机研究生论文检索方法汇总

计算机研究生论文检索方法汇总 作为一名优质(冤种)计算机在读研究生,检索论文是一项不可或缺的技能之一。 一、paperwithcode paperswithcode是一个免费开放的资源平台,提供了机器学习领域的论文、代码、数据集、方法和评估表。在这里我们可以检索不同…

Python|使用Missingno库可视化缺失值(NaN)

在真实世界数据集的情况下,数据集中的某些值丢失是非常常见的。我们将这些缺失值表示为NaN(非数字)值。但是要构建一个好的机器学习模型,我们的数据集应该是完整的。这就是为什么我们使用一些插补技术来用一些可能的值替换NaN值。…

C语言多线程编程-线程同步

介绍 多线程编程,经常会遇到线程直接数据同步,为了保证数据访问安全,就必须考虑线程之间的同步问题。在C语言中,多线程编程的线程同步主要依赖于POSIX线程(Pthreads)库提供的同步原语。以下是一些关键的线…

DevOps(6)

目录 26.如何在Linux下跨不同的虚拟桌面共享程序? 27.无名(空)目录代表什么? 29.什么是守护进程? 30.如何从一个桌面环境切换到另一个桌面环境,例如从KDE切换到Gnome? 26.如何在Linux下跨不同的虚拟桌面…

你的网站或许不需要前端构建(二)

前一阵,有朋友问我,能否在不进行前端编译构建的情况下,用现代语法开发网站界面。 于是,就有了这篇文章中提到的方案。 写在前面 这篇文章,依旧不想讨论构建或不构建,哪一种方案对开发更友好,…

JavaScript实现大整数加法

实现大整数加法 即两个数字字符相加,采用按位加法实现 方法 const add (a, b) > {let i a.length - 1;let j b.length - 1;let carry 0;let ret "";while (i > 0 || j > 0) {let x 0;let y 0;let sum "";if (i > 0) {x …

《工具录》NetCat

工具录 1:NetCat2:选项介绍3:示例3.1:正向连接(被动连接)3.2:反向连接(主动连接)3.3:信息收集3.4:文件传输 4:其他 本文以 kali-linux…