【AI+应用】aliyun的EMO图生视频模型引起的思考如何做AI数字人

昨天2 月 29 日消息,2 月 28 日,阿里巴巴集团智能计算研究院日前上线了一款新的 AI 图片 - 音频 - 视频模型技术 EMO,官方称其为 " 一种富有表现力的音频驱动的肖像视频生成框架 "。据悉,用户只需要提供一张照片和一段任意音频文件,EMO 即可生成会说话唱歌的 AI 视频,以及实现无缝对接的动态小视频,最长时间可达 1 分 30 秒左右。表情非常到位,任意语音、任意语速、任意图像都可以一一对应。

自己的消息比较滞后,昨晚睡觉前才刷到这个消息。今天想了想,既然 aliyun推出EMO模型,新技术嘛,自己也要了解下。 找了下地址:https://humanaigc.github.io/emote-portrait-alive/ , 进入github地址:https://github.com/HumanAIGC/EMO。  自己瞬间傻眼了,就一些说明文档,没代码。这是准备和openai的Sora 对标么,先推出概念和效果让市场先炒热起来么。

回到正题,EMO的介绍, 让我发现这不是就是AI数字人的技术么。之前本来想水一篇AI+数字人的,但由于自己了解不是太深,一直没动笔。趁着这个机会,写一篇自己的浅见。

网上很多AI+数字人的付费课程, 是不是割韭菜就不知道了。这里说下我认为实现AI+数字人的方案(科普入门), 不包括变现(个人的理解,2C业务应该不外乎x宝,视频号,x音,x手,B站等APP,发爆款AI数字人视频或直播,增加流量,增加粉丝,橱窗和直播带货。2B业务可能涉及企业培训服务等)。

先说下市面上的,据我所知,国内 

百度(https://cloud.baidu.com/product/baidudigitalhuman.html?track=mkt_sem),

腾讯(https://cloud.tencent.com/product/ivh),

华为(https://activity.huaweicloud.com/metastudio-szr.html?utm_source=baidu&utm_medium=se-cpc-op&utm_campaign=&utm_content=&utm_term=%E6%95%B0%E5%AD%97%E4%BA%BA&utm_adplace=AdPlace085313&bd_vid=11382723768066594769),

aliyun(https://cn.aliyun.com/product/ai/avatar?from_alibabacloud= )等一众平台都有付费的AI数字人平台,  或者百度搜索下很多广告专门卖这个的。 国外比较出名的 heygen(官网地址:https://www.heygen.com/ ,打开需要用点魔法)很多人都在用的方案(一个账户只有一分钟左右的免费额度, 用临时邮箱网站疯狂注册账号,突破这个限制。怎么搞网上找找,这里就不细说了)。

图片

用别人的平台制作数字人成本会比较高, 自己怎么低成本做呢,以下是一些思路。

AI数字人 = AI +  数字人, 要想做数字人需要有哪些技术储备呢。  视频+音频+字幕  这3个应该都需要。 

真人或动漫数字人视频制作(一般图片生成视频,推荐heygen,  后续可以看看sora或emo吧)

音频制作,业界应该有2种方案,TTS(Text-to-Speech,文本转语音)和 SVC(Singing Voice Conversion,声音转声音)是两种不同的声音合成技术, 这2种技术应用场景不一样。比如TTS适用于 智能助手、有声阅读、无障碍服务、导航系统等, SVC适用于音乐制作、娱乐、教育等。这块自己研究不深,自己最近在看GPT-SoVITS ( https://github.com/RVC-Boss/GPT-SoVITS )这个开源项目。

网上找的音频制作软件,这里注明,自己没用过。

1、ElevenLabs(11Labs):一个功能强大的在线文字转语音(TTS)工具,可以实现高质量的声音克隆。

2、So-Vits-SVC:一个基于 Singing Voice Conversion(歌声转换)技术的声音克隆工具。

3、Deep Voice:一个由腾讯AI实验室开发的基于深度学习的声音转换系统。

4、Voicery:一个在线的声音转换平台,支持多种语言和声音风格。

5、Lyrebird:一个利用深度学习技术进行声音克隆的工具,可以将文字转换为语音。

字幕呢,一般最后视频合成都用 剪辑软件把,推荐x音的剪影吧。

上面讲的自行创作,有人可能说自己创作多累啊,用别人的视频改改是否可行。关于二次创作或模仿呢,网上可能还有人会讲, 下载xx平台火爆的爆款视频(一般可以用影刀这些RPA工具抓取链接,low一点自己以一个一个爬取),用微信小程序的 轻抖去水印, 去水印, 提取字幕(用chatGPT等软件进行二次改造),用x音的剪映改改视频, 这样是不是就算是翻版了, 被认为原创了。  这里只是大概思路,自己没实操过。

作为程序员,怎么可能不上代码呢。 最近自己找了2个开源代码,还没学习,先附上链接。对这块感兴趣的可以一起交流。

1个是百度的,PaddleHub元宇宙直通车:手把手教你造个虚拟数字人https://aistudio.baidu.com/projectdetail/3345856?ad-from=17549, 源代码地址https://github.com/JiehangXie/PaddleBoBo

 1个是看csdn文章发现的https://blog.csdn.net/weixin_45508265/article/details/136284743 , 源代码地址:https://github.com/Kedreamix/Linly-Talker

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/711338.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

springboot235基于SpringBoot的房屋交易平台的设计与实现

房屋交易平台设计与实现 摘 要 信息数据从传统到当代,是一直在变革当中,突如其来的互联网让传统的信息管理看到了革命性的曙光,因为传统信息管理从时效性,还是安全性,还是可操作性等各个方面来讲,遇到了互…

死记硬背spring bean 的生命周期

1.bean的生命周期 我们平常经常使用类似于new Object()的方式去创建对象,在这个对象没有任何引用的时候,会被gc给回收掉。而对于spring而言,它本身存在一个Ioc容器,就是用来管理对象的,而对象的生命周期也完全由这个容…

性能测试-反编译jar

方法一,使用jd-gui 1、官网下载:Java Decompiler 2、下载mac版本后,解压,如下所示: 双击 JD_GUI,提示错误,如下所示: 已经安装了java 17,是java 1.8以上版本&#xff0…

Unity中URP下实现水体(水面高光)

文章目录 前言一、实现高光反射原理1、原理:2、公式: 二、实现1、定义 _SpecularColor 作为高光反射的颜色2、定义 _SpecularIntensity 作为反射系数,控制高光反射的强度3、定义 _Smoothness 作为高光指数,用于模型高光范围4、模拟…

深入理解c指针(四)

目录 六、assert断言 七、指针的使用和传址调用 1、strlen的模拟实现 2、传值调用和传址调用 3、练习-字符串逆序 在深入理解c指针&#xff08;三&#xff09;提到&#xff0c;在实际使用指针前可以检测其是否指到有效空间&#xff1a; #include<stdio.h> int mai…

度量与评估客户体验:以客户为中心的方法和工具

在当今的市场环境中&#xff0c;客户体验已经成为企业成功的关键因素。一个优秀的客户体验不仅能够提升客户满意度&#xff0c;增强客户忠诚度&#xff0c;还能够吸引新的潜在客户。然而&#xff0c;要实现这一目标&#xff0c;企业首先需要了解如何度量和评估客户体验。本文将…

day08_分类品牌管理商品规格管理商品管理

文章目录 1 分类品牌管理1.1 菜单添加1.2 表结构介绍1.3 页面制作1.4 品牌列表加载1.4.1 后端接口BrandControllerBrandServiceBrandMapperBrandMapper.xml 1.4.2 前端对接brand.jscategoryBrand.vue 1.5 分类数据加载1.6 列表查询1.6.1 需求说明1.6.2 后端接口需求分析Categor…

linux nasm汇编中调用printf不报错,但调用scanf报错。抛出了分段错误(核心转储)

当我写了如下汇编时 ; nasm -f elf64 -g -F dwarf charsin.asm ; gcc charsin.o -no-pie -o charsin ; ld -o eatclib eatclib.o ; gdb eatclib[SECTION .data]SPrompt db Enter string data, followed by Enter: ,0IPrompt db Enter an integer value, followed by Enter: ,1…

Dsco Dropship EDI需求分析

供应商要想从Dsco处通过EDI获取订单&#xff0c;需要部署自己的EDI系统&#xff0c;与Dsco的EDI供应商CommerceHub 建立连接&#xff0c;分为两个方向&#xff1a; 1.从CommerceHub 的 Dsco 平台获取 EDI 850 采购订单 2.向Dsco发送库存&#xff08;846&#xff09;、订单状态…

2024-02学习笔记

1.当我们向Set集合中添加一个已经存在的元素时 当我们向Set集合中添加一个已经存在的元素时&#xff0c;Set集合会如何处理呢&#xff1f;实际上&#xff0c;Set集合不会将重复的元素添加到集合中。当我们向Set集合中添加一个元素时&#xff0c;Set集合会首先判断该元素是否已…

华为配置WLAN高密业务示例

配置WLAN高密业务示例 组网图形 图1 配置高密WLAN环境网络部署组网图 业务需求组网需求数据规划配置思路配置注意事项操作步骤配置文件 业务需求 体育场由于需要接入用户数量很大&#xff0c;AP间部署距离较小&#xff0c;因此AP间的干扰较大&#xff0c;可能导致用户上网网…

新王炸:文生视频Sora模型发布,能否引爆AI芯片热潮

前言 前方高能预警&#xff0c;Sora来袭&#xff01; 浅析Sora的技术亮点 语言模型中构建关键词联系 视频素材分解为时空碎片 扩散模型DiT Not for play, But change world! OpenAI的宏大目标 未来已来&#xff0c;只是尚未流行 Sora的成本与OpenAI的7万亿美金豪赌 算…

【探索AI】人人都在讲AIGC,什么是AIGC?

AIGC 概述示例展示我们日常用到的一些工具/应用核心技术介绍核心技术的算法解析案例及部分代码实现1. 艺术作品2. 设计项目3. 影视特效4. 广告创意总结 一张图先了解下&#xff1a; 概述 "人工智能生成创造&#xff08;Artificial Intelligence Generated Content&#x…

从CPU缓存结构到原子操作

一、CPU缓存结构 1.1 CPU的多级缓存 因为CPU的计算速度非常快&#xff0c;但内存的访问速度相对较慢。因此&#xff0c;如果CPU每次都要从内存读取数据&#xff0c;会造成大量的等待时间&#xff0c;降低整体性能。 通过引入多级缓存&#xff0c;可以在CPU和内存之间建立数据…

vue3中实现elementPlus表格选中行的上移下移

先看效果&#xff1a; 实现步骤&#xff1a; 1、给el-table添加current-change事件、高亮属性及ref属性 2、给上移下移按钮添加事件 // 定义当前选中的行参数 const currentRow ref<any>(null); // 定义表格的ref const singleTableRef ref(); // 行选中事件 const ha…

正信晟锦:借了钱的人一直不接电话不回信息咋办

在金钱往来中&#xff0c;遇到借出的钱款无法按时回收&#xff0c;且借款人如同人间蒸发一般不接电话、不回信息&#xff0c;确实让人焦虑。面对这种情形&#xff0c;我们需采取明智而有效的措施&#xff0c;以保护自身的权益。 首要策略是保持冷静&#xff0c;不要让情绪主导行…

四、《任务列表案例》后端程序实现和测试

本章概要 准备工作功能实现前后联调 4.1 准备工作 数据库脚本 CREATE TABLE schedule (id INT NOT NULL AUTO_INCREMENT,title VARCHAR(255) NOT NULL,completed BOOLEAN NOT NULL,PRIMARY KEY (id) );INSERT INTO schedule (title, completed) VALUES(学习java, true),(学…

【前端素材】推荐优质在线高端蜂蜜商城电商网页Beejar平台模板(附源码)

一、需求分析 1、系统定义 在线高端蜂蜜商城是指一个专门销售高品质、高端蜂蜜产品的电子商务平台。这种商城致力于向消费者提供各种经过精心挑选、具有高营养价值和健康功效的蜂蜜产品。 2、功能需求 在线高端蜂蜜商城是指一个专门销售高品质、高端蜂蜜产品的电子商务平台…

Go字符串实战操作大全!

目录 1. 引言文章结构概览 2. Go字符串基础字符串的定义与特性什么是字符串&#xff1f;Go字符串的不可变性原则 字符串的数据结构Go字符串的内部表达byte和rune的简介 3. 字符串操作与应用3.1 操作与应用字符串连接字符串切片字符串查找字符串比较字符串的替换字符串的大小写转…

旧的Spring Security OAuth已停止维护,全面拥抱最新解决方案Spring SAS

Spring Authorization Server 替换 Shiro 指引 背景 Spring 团队正式宣布 Spring Security OAuth 停止维护&#xff0c;该项目将不会再进行任何的迭代 目前 Spring 生态中的 OAuth2 授权服务器是 Spring Authorization Server 已经可以正式生产使用作为 SpringBoot 3.0 的最新…