南开大学与字节跳动研究人员推出开源AI工具ChatAnything:用文本描述生成虚拟角色

南开大学与字节跳动研究人员合作推出了一项引人注目的研究,发布了一种名为ChatAnything的全新AI框架。该框架专注于通过在线方式生成基于大型语言模型(LLM)的角色的拟人化形象,从而创造具有定制视觉外观、个性和语调的人物。

简答的说,ChatAnything是一个创新的产品,利用语言模型技术为LLM角色创建具有视觉外观、个性和语调的拟人化角色。通过混合语音和外观生成概念,用户只需几个文本输入即可定制角色。该产品采用面部标志控制和评估数据集,通过像素级引导实现更高的人类面部特征生成率。ChatAnything支持文本和图像输入,为用户提供创造独特虚拟角色的自由度。

图片

研究团队充分利用了LLMs的上下文学习能力,通过精心设计的系统提示生成具有个性的拟人化形象。他们提出了两个创新概念:混合声音(MoV)和扩散混合(MoD),以实现声音和外观的多样生成。MoV使用文本到语音(TTS)算法生成预定义音调,根据用户提供的文本描述选择最匹配的音调。而MoD则结合了文本到图像生成技术和说话头算法,简化了生成交互式对象的过程。

然而,研究人员在使用当前模型生成的拟人化对象时遇到了一个挑战,即这些对象通常无法被预先训练的面部关键点检测器检测到,导致面部运动生成失败。为了解决这个问题,他们在图像生成过程中引入了像素级的引导,注入人脸关键点,显著提高了面部关键点检测率,从而实现了基于生成的语音内容的自动面部动画。

图片

研究人员在论文中详细讨论了大型语言模型(LLMs)的最新进展以及它们在上下文学习方面的能力,将它们置于学术讨论的前沿。他们强调了需要一个能够生成具有定制个性、语音和视觉外观的LLM增强人物的框架的重要性。对于个性生成,他们利用LLMs的上下文学习能力,使用文本到语音(TTS)API创建了一个声音模块池,MoV模块根据用户文本输入选择音调。

研究人员进一步介绍了ChatAnything框架的四个主要模块,包括LLM控制模块、肖像初始化器、文本到语音模块混合和动作生成模块。他们通过引入扩散模型、语音变换器和结构控制,创建了一个模块化和灵活的系统。为了验证引导扩散的有效性,研究人员创建了一个包含不同类别提示的验证数据集,并使用预训练的面部关键点检测器评估了面部关键点检测率,展示了他们提出的方法的影响。

ChatAnything框架为生成具有拟人特征的LLM增强人物提供了全面的解决方案。研究人员在解决面部关键点检测方面提出了创新性的解决方案,并在验证数据集中取得了令人鼓舞的结果。这项工作为将生成模型与说话头算法相结合以及改善数据分布的对齐提供了未来研究的可能性。

项目地址:https://chatanything.github.io

相关论文:https://arxiv.org/abs/2311.06772

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/186317.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度解析 Spring Security 自定义异常失效问题:源码剖析与解决方案

🚀 作者主页: 有来技术 🔥 开源项目: youlai-mall 🍃 vue3-element-admin 🍃 youlai-boot 🌺 仓库主页: Gitee 💫 Github 💫 GitCode 💖 欢迎点赞…

设计模式之装饰模式(2)--有意思的想法

目录 背景概述概念角色 基本代码分析❀❀花样重难点聚合关系认贼作父和认孙做父客户端的优化及好处继承到设计模式的演变过程 总结 背景 这是我第二次写装饰模式,这一次是在上一次的基础上进一步探究装饰模式,这一次有了很多新的感受和想法,也…

BUUCTF john-in-the-middle 1

BUUCTF:https://buuoj.cn/challenges 题目描述: 注意:得到的 flag 请包上 flag{} 提交 密文: 下载附件,解压得到john-in-the-middle.pcap文件。 解题思路: 1、双击文件,打开wireshark。 看到很多http流…

基于springboot实现的在线考试系统

一、系统架构 前端:html | js | css | jquery | bootstrap 后端:springboot | springdata-jpa 环境:jdk1.7 | mysql | maven 二、 代码及数据库 三、功能介绍 01. 登录页 02. 管理员端-课程管理 03. 管理员端-班级管理 04. 管理员端-老师管理…

1688商品详情API在跨境电子商务中的重要性

1688商品详情API在跨境电子商务中的重要性 一、引言 随着全球电子商务的迅速发展和普及,跨境电子商务已经成为国际贸易的一种重要形式。1688作为全球最大的B2B电子商务平台之一,不仅为国内商家提供了丰富的商品资源,同时也为跨境商家提供了…

AT89S52单片机智能寻迹小车自动红外避障趋光检测发声发光设计

wx供重浩:创享日记 对话框发送:寻迹 获取完整说明报告源程序数据 小车具有以下几个功能:自动避障功能;寻迹功能(按路面的黑色轨道行驶);趋光功能(寻找前方的点光源并行驶到位&…

C++ ini配置文件的简单读取使用

ini文件就是简单的section 下面有对应的键值对 std::map<std::string, std::map<std::string, std::string>>MyIni::readIniFile() {std::ifstream file(filename);if (!file.is_open()) {std::cerr << "Error: Unable to open file " << …

以STM32CubeMX创建DSP库工程方法一

以STM32CubeMX创建DSP库工程方法 略过时钟树的分配和UART的创建等&#xff0c;直接进入主题生成工程文件 它们中的文件功能如下&#xff1a; 1&#xff09;BasicMathFunctions 基本数学函数&#xff1a;提供浮点数的各种基本运算函数&#xff0c;如向量加减乘除等运算。 2&…

【MATLAB】EWT分解+FFT+HHT组合算法

有意向获取代码&#xff0c;请转文末观看代码获取方式~也可转原文链接获取~ 1 基本定义 EWTFFTHHT组合算法是一种广泛应用于信号处理领域的算法&#xff0c;它结合了经验小波变换&#xff08;Empirical Wavelet Transform&#xff0c;EWT&#xff09;、快速傅里叶变换&#x…

SpringBoot查询指定范围内的坐标点

使用Redis geo实现 redis geo是基于Sorted Set来实现的 Redis 3.2 版本新增了geo相关命令&#xff0c;用于存储和操作地理位置信息。提供的命令包括添加、计算位置之间距离、根据中心点坐标和距离范围来查询地理位置集合等&#xff0c;说明如下: geoadd&#xff1a;添加地理…

DCDC前馈电容与RC串并联电路

一、RC串并联电路特性分析 1、RC串联电路 RC 串联的转折频率&#xff1a; f01/&#xff08;2πR1C1&#xff09;&#xff0c;当输入信号频率大于 f0 时&#xff0c;整个 RC 串联电路总的阻抗基本不变了&#xff0c;其大小等于 R1。 2、RC并联电路 RC 并联电路的转折频率&…

零基础学Python的第五天||字符串(2)

raw_input和print 自从本课程开始以来&#xff0c;我们还没有感受到computer姑娘的智能。最简单的智能应该体现在哪里呢&#xff1f;想想小孩子刚刚回说话的时候情景吧。 小孩学说话&#xff0c;是一个模仿的过程&#xff0c;孩子周围的人怎么说&#xff0c;她&#xff08;他&…

redis源码从头深入分析(1)--acl文件

此篇为对redis源码的个人理解和分析,以一个初看源码的视角从头阅读源码,对各个函数,定义的类型进行解释并阐明其作用,让初读源码的人能够完全理解该定义类型及函数,最后形成对redis总体的一个认知。希望此篇能为初读redis源码的人提供一些帮助。 acl.c文件 acl是 Access…

02、Tensorflow实现手写数字识别(数字0-9)

02、Tensorflow实现手写数字识别&#xff08;数字0-9&#xff09; 01、Tensorflow实现二元手写数字识别&#xff08;二分类问题&#xff09; 02、Tensorflow实现手写数字识别&#xff08;数字0-9&#xff09; 开始学习机器学习啦&#xff0c;已经把吴恩达的课全部刷完了&…

zookeeper集群和kafka集群

&#xff08;一&#xff09;kafka 1、kafka3.0之前依赖于zookeeper 2、kafka3.0之后不依赖zookeeper&#xff0c;元数据由kafka节点自己管理 &#xff08;二&#xff09;zookeeper 1、zookeeper是一个开源的、分布式的架构&#xff0c;提供协调服务&#xff08;Apache项目&…

Shell 脚本自动化备份与恢复实践

文章目录 引言自动化备份脚本详解备份脚本示例恢复脚本示例 设置定时任务 crontab 自动备份总结 引言 在系统管理中&#xff0c;自动化备份与恢复流程是至关重要的一环。借助 Shell 脚本&#xff0c;我们能够轻松编写脚本实现数据备份和恢复&#xff0c;确保数据的安全性和完整…

【Openstack Train安装】二、NTP安装

网络时间协议&#xff1a;Network Time Protocol&#xff08;NTP&#xff09;是用来使计算机时间同步化的一种协议&#xff0c;它可以使计算机对其服务器或时钟源&#xff08;如石英钟&#xff0c;GPS等等)做同步化&#xff0c;它可以提供高精准度的时间校正&#xff08;LAN上与…

ACM程序设计课内实验(2) 排序问题

基础知识‘ sort函数 C中的sort函数是库中的一个函数&#xff0c;用于对容器中的元素进行排序。它的原型如下&#xff1a; template <class RandomAccessIterator, class Compare> void sort (RandomAccessIterator first, RandomAccessIterator last, Compare comp);参数…

IC设计简单概述

IC设计行业是一个高科技行业&#xff0c;有着复杂而细致的分工&#xff0c;严格的流程规范、多种不同类型的EDA工具。下面简单概述以下几个方面。 IC设计公司的分类 IC设计公司有多种分类方法。若按有无芯片生产能力来分&#xff0c;可以分为兼具设计与生产能力&#xff08;I…

在linux下在官网的nginxtar包 的安装方式并配置全局变量

在Linux系统中&#xff0c;Nginx是一种流行的Web服务器和反向代理服务器&#xff0c;它可以提供高性能的静态内容服务和动态内容服务。本文将详细介绍如何在Linux系统中安装Nginx&#xff0c;并配置全局变量。 安装Nginx 以下是在Linux系统中安装Nginx的步骤&#xff1a; 1.…