EmoAva:首个大规模、高质量的文本到3D表情映射数据集。

2024-12-03,由哈尔滨工业大学(深圳)的计算机科学系联合澳门大学、新加坡南洋理工大学等机构创建了EmoAva数据集,这是首个大规模、高质量的文本到3D表情映射数据集,对于推动情感丰富的3D头像生成技术的发展具有重要意义。

数据集地址:EmoAva|情感计算数据集|3D虚拟形象生成数据集

一、研究背景:

在人工智能领域,尤其是情感计算社区,生成能够反映人类面部情感的头像一直是一个重要研究方向。这种技术在虚拟客户支持、在线治疗等多个实际场景中有着广泛的应用前景。

目前遇到困难和挑战:

1、表情多样性。同一情感文本可以对应多种不同的面部表情,模型需要能够捕捉这种多样性。

2、情感内容一致性。生成的头像表情需要与输入文本的情感基调保持一致。

3、表情流畅性。在对话中,头像的面部表情变化应该是连续和流畅的,这意味着情感状态之间的过渡应该是自然无缝的。

数据集地址:EmoAva|情感计算数据集|3D虚拟形象生成数据集

二、让我们一起来看一下EmoAva数据集

EmoAva是一个包含15,000个文本到3D表情映射实例的大规模、高质量数据集,专为情感丰富的3D头像生成而设计。

EmoAva数据集包含了从电影和电视剧中提取的对话视频片段,通过先进的3D面部跟踪技术提取出3D表情代码和网格。

数据集构建:

包括从视频剪辑中提取音频和视频、使用WhisperX进行音频转录、切割视频以匹配文本、使用FaceNet进行初步筛选和手动细化以获取头部视频,最后使用EMOCA-v2提取3D表情向量。

数据集特点:

1、大规模和高质量,包含15,000个文本-3D表情实例和782,471个FLAME框架。

2、表情多样性,超过15%的实例展现了1到N的关系。

3、情感多样性,包括快乐、悲伤、中性等多种情感。

数据集使用方法:数据集可以用于训练和评估文本到3D表情映射模型,以及3D头像渲染模型,通过提供文本输入生成具有丰富情感的3D头像。

基准测试:

文章提出了一系列评估指标,包括表情多样性、表情流畅性和情感内容一致性,以有效评估模型在这些挑战中的表现。

 

Emo3D生成分解为两个连续的步骤:文本到3D表情映射(T3DEM)和3D头像渲染(3DAR)。

其中T3DEM是决定Emo3D生成质量的关键步骤,面临表情多样性、情感内容一致性和表情流畅性三个挑战。

1、文本到3D表情映射(T3DEM):确定Emo3D生成质量的关键步骤,包括表情多样性、情感内容一致性和表情流畅性三个挑战。

2、3D化身渲染(3DAR):渲染更高质量的微妙表情。

CTEG模型(连续文本到表情生成器)

T3DEM(文本到3D表情映射):CTEG模型正是针对这一步骤设计的。它负责将给定的文本转换成一系列的表情向量。这些表情向量需要满足三个挑战:表情多样性、情感内容一致性和表情流畅性。CTEG模型通过自回归条件变分自编码器(CVAE)和增强的注意力机制来生成丰富、一致和流畅的表情序列。

GiGA模型(全局信息高斯头像)

3DAR(3D头像渲染):一旦CTEG模型生成了表情向量,GiGA模型就接管这些向量,将它们用于3D头像的渲染和动画制作。GiGA模型通过在3D高斯表示中整合全局信息机制,能够捕捉微妙的微表情和情感状态之间的无缝过渡,从而使得从视频中重建的3D头像能够展现出丰富的情感表达。

两个模型的关系:

连续性:CTEG模型和GiGA模型在Emo3D生成过程中是连续工作的。CTEG模型的输出(表情向量)直接作为GiGA模型的输入,确保了从文本到3D头像生成的流畅性和一致性。

互补性:CTEG模型专注于文本到表情向量的转换,而GiGA模型专注于将这些表情向量转化为视觉上的3D头像。两者共同实现了从文本到具有丰富情感表达的3D头像的完整生成过程。

总结来说,CTEG模型负责理解和转换文本中的情感信息,生成表情向量,而GiGA模型则负责将这些表情向量转化为3D头像的动态表情,两者协同工作,完成了Emo3D生成的全过程。

这项工作的符号和标记。

来自EmoAva数据集的样本。每个实例包括一个演员所说的文本、相应的头部视频以及一系列3D表情向量(这里以3D网格的形式可视化)。

a:表情序列长度的分布。b:主要面部情感类别的分布

连续文本到表情生成器(CTEG)的架构。给定一段文本,该模型自回归地生成一系列表情向量。绿色块和粉色块分别代表表情感知注意力(EwA)模块和条件变分自回归解码器(CVAD)模块。

GiGA动机的说明。与GaussianAvatars(顶部)相比,GiGA中的3D高斯不仅受绑定网格三角形的影响,还受到其他区域(三角形)的影响。这种设计考虑了肌肉单元的连接,使得对微妙表情变化的建模更加精确。

全局信息高斯头像(GiGA)模型的框架。

CTEG模型生成的多样性的可视化展示。从相同的文本中使用不同的随机种子生成了四个表情序列。CTEG展现了出色的生成多样性。

三、让我们一起展望EmoAva数据集的应用

案例名称:Nora- 虚拟情感治疗助手

在快节奏的现代生活中,许多人面临着心理压力和情感问题。传统的面对面心理治疗受限于地理位置、时间安排和个人隐私顾虑。为了解决这些问题,一家名为“心灵绿洲”的远程心理健康服务公司开发了一个名为“EmoTherapist”的虚拟治疗师平台,利用EmoAva数据集提供逼真的情感支持和治疗。

比如,小k是一位忙碌的都市白领,由于工作压力大,他经常感到焦虑和孤独。他决定尝试“心灵绿洲”提供的“Nora”服务。在一个风和日丽的周六早晨,小k打开了“Nora”应用程序,开始了他的心理治疗之旅。

治疗过程:

1、初始设置:

小k选择了一个舒适的环境,戴上VR头盔,进入了虚拟治疗室。房间布置温馨,阳光透过窗户洒在柔软的沙发上。

2、遇见虚拟治疗师:

随着一阵轻柔的音乐,一位名叫“艾米”的虚拟治疗师出现在小k面前。艾米有着温和的眼神和温暖的微笑,她的面部表情和肢体语言都是基于EmoAva数据集生成的,能够模拟真实人类治疗师的情感反应。

3、情感识别与同步:

在对话开始时,艾米通过语音识别和面部表情分析技术,捕捉小k的情绪状态。她的3D面部表情与小k的情绪同步变化,显示出同理心和关注。

4、情感表达与反馈:

当小k分享工作压力时,艾米的表情变得严肃而关切。她轻轻地点头,眼神中流露出理解和支持。这种情感的反馈让李明感到被听见和理解。

5、情感调节练习:

艾米引导小k进行深呼吸练习和正念冥想,以减轻焦虑。在练习过程中,艾米的表情和语调都与练习的节奏相匹配,帮助小k更好地放松和集中注意力。

6、情感故事分享:

艾米邀请小k分享一个他感到特别焦虑的工作经历。在讲述过程中,艾米的表情随着故事的情绪起伏而变化,她的眉头紧锁,表现出担忧,然后又逐渐放松,鼓励小k找到解决问题的方法。

7、治疗结束与总结:

治疗结束时,艾米总结了小k的进步,并给予了积极的反馈。她的笑容温暖而鼓励,让小k感到轻松和希望。

8、后续行动计划:

艾米为小k制定了一个个性化的行动计划,包括日常的放松技巧和情绪管理策略,帮助他在日常生活中应对压力。

经过几次治疗,小k感到自己的情绪得到了显著改善。他发现与艾米的互动不仅减轻了他的焦虑,还提高了他的情绪管理能力。小k对“Nora”服务感到满意,并推荐给了他的朋友和同事。这种创新的服务模式不仅拓宽了心理健康服务的可及性,也为那些需要情感支持的人们提供了新的选择。

更多免费的数据集,请打开:遇见数据集

遇见数据集-让每个数据集都被发现,让每一次遇见都有价值遇见数据集,国内领先的百万级数据集搜索引擎,实时追踪全球数据集市场,助力把握数字经济时代机遇。icon-default.png?t=O83Ahttps://www.selectdataset.com/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/63471.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【开源免费】基于Vue和SpringBoot的课程答疑系统(附论文)

博主说明:本文项目编号 T 070 ,文末自助获取源码 \color{red}{T070,文末自助获取源码} T070,文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析…

Spring Boot 整合 Druid 并开启监控

文章目录 1. 引言2. 添加依赖3. 配置数据源4. 开启监控功能5. 自定义 Druid 配置(可选)6. 访问监控页面7. 注意事项8. 总结 Druid 是一个由阿里巴巴开源的高性能数据库连接池,它不仅提供了高效的连接管理功能,还自带了强大的监控和…

利用PHP和GD库实现图片切割

利用PHP和GD库实现图片切割的详细步骤如下: 一、检查GD库是否安装 确保服务器上已经安装了PHP和GD库。可以使用phpinfo()函数来检查GD库是否已经安装和启用。 二、加载原始图片 使用PHP提供的imagecreatefromjpeg()、imagecreatefrompng()或imagecreatefromgif(…

第二十四周机器学习笔记:动手深度学习之——统计学习知识

第二十四周周报 摘要Abstract1.监督学习和无监督学习1.1 监督学习(Supervised Learning)1.2 无监督学习(Unsupervised Learning) 2.线性回归模型3.K-means聚类算法3.1 K-means算法的具体步骤: 4.决策树4.1 划分选择的目…

云计算vspere 安装过程

1 材料的准备 1 安装虚拟机 vmware workstation 2 安装esxi 主机 3 在esxi 主机上安装windows 2018 dns 服务器 4 在虚拟机上安装windows 2018 服务器 6 安装vcenter 5 登入界面测试 这里讲一下,由于部署vspere 需要在windows 2012 服务器上部…

【青牛科技】应用于音频信号处理系统的D258 是由两个独立的高增益运算放大器组成

概述: D258是由两个独立的高增益运算放大器组成。可以是单电源工作,也可以是双电源工作,电源的电流消耗与电源电压大小无关。应用范围包括变频放大器、DC增益部件和所有常规运算放大电路。 主要特点: ● 可单电源或双电源 工作 ● 在一个封…

HTML旋转爱心(完整代码)

目录 写在前面 完整代码 下载代码 代码分析 系列文章 写在后面 写在前面 HTML语言实现旋转爱心的完整代码。 完整代码 <!DOCTYPE html> <html lang="en"><head><title>Love</title><meta charset="utf-8">&l…

Kafka 数据写入问题

目录标题 分析思路1. **生产者配置问题**&#xff1a;Kafka生产者的配置参数生产者和消费者的处理确定并优化 2. **网络问题**&#xff1a;3. **Kafka 集群配置问题**&#xff1a;unclean.leader.election.enable 4. **Zookeeper 配置问题**&#xff1a;5. **JVM 参数调优**&am…

1.文本方块方法(Spacy Text Splitter 方法)Can‘t find model ‘zh_core_web_sm‘

一、概述 执行如下&#xff1a; def split_spacy(text):import spacynlp spacy.load( "zh_core_web_sm" ) doc nlp(text) for s in doc.sents: print(s) # d:\programdata\anaconda3\envs\python310\lib\site-packages if __name__"__main__":text &q…

redis备份方式

Redis是一个开源的内存数据结构存储系统&#xff0c;常用于数据库、缓存和消息中间件。Redis提供了两种主要的持久化方式&#xff1a;RDB&#xff08;Redis DataBase&#xff09;和AOF&#xff08;Append Only File&#xff09;。 RDB&#xff08;Redis DataBase&#xff09; …

maven高级管理

1. 依赖管理 pom.xml使用标签来进行依赖管理&#xff0c;具体涉及 依赖传递可选依赖排除依赖 依赖是具有传递性 **说明:**A代表自己的项目&#xff1b;B,C,D,E,F,G代表的是项目所依赖的jar包&#xff1b;D1和D2 E1和E2代表是相同jar包的不同版本 (1) A依赖了B和C,B和C有分别…

自建服务器,数据安全有保障

在远程桌面工具的选择上&#xff0c;向日葵和TeamViewer功能强大&#xff0c;但都存在收费昂贵、依赖第三方服务器、数据隐私难以完全掌控等问题。相比之下&#xff0c;RustDesk 凭借开源免费、自建服务的特性脱颖而出&#xff01;用户可以在自己的服务器上部署RustDesk服务端&…

1、SQL语言

分类方式 类别描述 部署方式 嵌入式/单机/双机/集群/分布式/云数据库 业务类型 OLTP数据库/OLAP数据库/流数据库/时序数据库 存储介质 内存数据库/磁盘数据库/SSD数据库/SCM数据库 年代 第一代是单机数据库/第二代是集群数据库/第三代是分布式数据库和云原生数据库/第…

使用docker让项目持续开发和部署

大多人选择开发时在本地&#xff0c;部署时文件都在容器里&#xff0c;如果没有容器&#xff0c;那就本地开发&#xff0c;没有映射文件&#xff0c;如果部署环境到容器了&#xff0c;容器内部启动时设置执行命令&#xff0c;再将映射的文件进行编译&#xff0c;这就直接能实现…

一些常见网络安全术语

1、黑帽 为非法目的进行黑客攻击的人&#xff0c;通常是为了经济利益。他们进入安全网络以销毁&#xff0c;赎回&#xff0c;修改或窃取数据&#xff0c;或使网络无法用于授权用户。这个名字来源于这样一个事实&#xff1a;老式的黑白西部电影中的恶棍很容易被电影观众识别&…

Linux-PWM驱动实验

在裸机篇我们已经学习过了如何使用 I.MX6ULL 的 PWM 外设来实现 LCD 的背光调节&#xff0c;其实在 Linux 的 LCD 驱动实验我们也提到过 I.MX6ULL 的 PWM 背光调节&#xff0c;但是并没有专门的去讲解 PWM 部分&#xff0c;本章我们就来学习一下 Linux 下的 PWM 驱动开发。 PWM…

ChatGPT 最新推出的 Pro 订阅计划,具备哪些能力 ?

OpenAI 最近推出了 ChatGPT Pro&#xff0c;这是一个每月收费 200 美元的高级订阅计划&#xff0c;旨在为用户提供对 OpenAI 最先进模型和功能的高级访问。 以下是 ChatGPT Pro 的主要功能和能力&#xff1a; 高级模型访问&#xff1a; o1 模型&#xff1a;包括 o1 和 o1 Pro…

wordpress网站安装了Linux宝塔面板,限制IP地址访问网站,只能使用域名访问网站

一、Linux服务器安装Linux宝塔面板 这个步骤参考网上其他教程。 二、Linux宝塔面板部署wordpress网站 这个步骤参考网上其他教程&#xff0c;保证网站能够正常访问&#xff0c;并且使用Linux宝塔面板申请并部署了SSL证书&#xff0c;使用https协议默认443端口正常访问。 三…

C#中的模拟服务器与客户端建立连接

创建一个控制台项目&#xff0c;命名为Server&#xff0c;模拟服务器端。在同一个解决方案下&#xff0c;添加新项目&#xff0c;命名为Client&#xff0c;模拟客户端。在服务器端与客户端之间建立TCP连接&#xff0c;并在客户端发送消息&#xff0c;在服务器端输出。 Server项…

LeetCode279. 完全平方数(2024冬季每日一题 27)

给你一个整数 n &#xff0c;返回 和为 n 的完全平方数的最少数量 。 完全平方数 是一个整数&#xff0c;其值等于另一个整数的平方&#xff1b;换句话说&#xff0c;其值等于一个整数自乘的积。例如&#xff0c;1、4、9 和 16 都是完全平方数&#xff0c;而 3 和 11 不是。 …