南开大学与字节跳动研究人员推出开源AI工具ChatAnything:用文本描述生成虚拟角色

南开大学与字节跳动研究人员合作推出了一项引人注目的研究,发布了一种名为ChatAnything的全新AI框架。该框架专注于通过在线方式生成基于大型语言模型(LLM)的角色的拟人化形象,从而创造具有定制视觉外观、个性和语调的人物。

简答的说,ChatAnything是一个创新的产品,利用语言模型技术为LLM角色创建具有视觉外观、个性和语调的拟人化角色。通过混合语音和外观生成概念,用户只需几个文本输入即可定制角色。该产品采用面部标志控制和评估数据集,通过像素级引导实现更高的人类面部特征生成率。ChatAnything支持文本和图像输入,为用户提供创造独特虚拟角色的自由度。

图片

研究团队充分利用了LLMs的上下文学习能力,通过精心设计的系统提示生成具有个性的拟人化形象。他们提出了两个创新概念:混合声音(MoV)和扩散混合(MoD),以实现声音和外观的多样生成。MoV使用文本到语音(TTS)算法生成预定义音调,根据用户提供的文本描述选择最匹配的音调。而MoD则结合了文本到图像生成技术和说话头算法,简化了生成交互式对象的过程。

然而,研究人员在使用当前模型生成的拟人化对象时遇到了一个挑战,即这些对象通常无法被预先训练的面部关键点检测器检测到,导致面部运动生成失败。为了解决这个问题,他们在图像生成过程中引入了像素级的引导,注入人脸关键点,显著提高了面部关键点检测率,从而实现了基于生成的语音内容的自动面部动画。

图片

研究人员在论文中详细讨论了大型语言模型(LLMs)的最新进展以及它们在上下文学习方面的能力,将它们置于学术讨论的前沿。他们强调了需要一个能够生成具有定制个性、语音和视觉外观的LLM增强人物的框架的重要性。对于个性生成,他们利用LLMs的上下文学习能力,使用文本到语音(TTS)API创建了一个声音模块池,MoV模块根据用户文本输入选择音调。

研究人员进一步介绍了ChatAnything框架的四个主要模块,包括LLM控制模块、肖像初始化器、文本到语音模块混合和动作生成模块。他们通过引入扩散模型、语音变换器和结构控制,创建了一个模块化和灵活的系统。为了验证引导扩散的有效性,研究人员创建了一个包含不同类别提示的验证数据集,并使用预训练的面部关键点检测器评估了面部关键点检测率,展示了他们提出的方法的影响。

ChatAnything框架为生成具有拟人特征的LLM增强人物提供了全面的解决方案。研究人员在解决面部关键点检测方面提出了创新性的解决方案,并在验证数据集中取得了令人鼓舞的结果。这项工作为将生成模型与说话头算法相结合以及改善数据分布的对齐提供了未来研究的可能性。

项目地址:https://chatanything.github.io

相关论文:https://arxiv.org/abs/2311.06772

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/186317.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度解析 Spring Security 自定义异常失效问题:源码剖析与解决方案

🚀 作者主页: 有来技术 🔥 开源项目: youlai-mall 🍃 vue3-element-admin 🍃 youlai-boot 🌺 仓库主页: Gitee 💫 Github 💫 GitCode 💖 欢迎点赞…

设计模式之装饰模式(2)--有意思的想法

目录 背景概述概念角色 基本代码分析❀❀花样重难点聚合关系认贼作父和认孙做父客户端的优化及好处继承到设计模式的演变过程 总结 背景 这是我第二次写装饰模式,这一次是在上一次的基础上进一步探究装饰模式,这一次有了很多新的感受和想法,也…

BUUCTF john-in-the-middle 1

BUUCTF:https://buuoj.cn/challenges 题目描述: 注意:得到的 flag 请包上 flag{} 提交 密文: 下载附件,解压得到john-in-the-middle.pcap文件。 解题思路: 1、双击文件,打开wireshark。 看到很多http流…

基于springboot实现的在线考试系统

一、系统架构 前端:html | js | css | jquery | bootstrap 后端:springboot | springdata-jpa 环境:jdk1.7 | mysql | maven 二、 代码及数据库 三、功能介绍 01. 登录页 02. 管理员端-课程管理 03. 管理员端-班级管理 04. 管理员端-老师管理…

AT89S52单片机智能寻迹小车自动红外避障趋光检测发声发光设计

wx供重浩:创享日记 对话框发送:寻迹 获取完整说明报告源程序数据 小车具有以下几个功能:自动避障功能;寻迹功能(按路面的黑色轨道行驶);趋光功能(寻找前方的点光源并行驶到位&…

C++ ini配置文件的简单读取使用

ini文件就是简单的section 下面有对应的键值对 std::map<std::string, std::map<std::string, std::string>>MyIni::readIniFile() {std::ifstream file(filename);if (!file.is_open()) {std::cerr << "Error: Unable to open file " << …

以STM32CubeMX创建DSP库工程方法一

以STM32CubeMX创建DSP库工程方法 略过时钟树的分配和UART的创建等&#xff0c;直接进入主题生成工程文件 它们中的文件功能如下&#xff1a; 1&#xff09;BasicMathFunctions 基本数学函数&#xff1a;提供浮点数的各种基本运算函数&#xff0c;如向量加减乘除等运算。 2&…

【MATLAB】EWT分解+FFT+HHT组合算法

有意向获取代码&#xff0c;请转文末观看代码获取方式~也可转原文链接获取~ 1 基本定义 EWTFFTHHT组合算法是一种广泛应用于信号处理领域的算法&#xff0c;它结合了经验小波变换&#xff08;Empirical Wavelet Transform&#xff0c;EWT&#xff09;、快速傅里叶变换&#x…

SpringBoot查询指定范围内的坐标点

使用Redis geo实现 redis geo是基于Sorted Set来实现的 Redis 3.2 版本新增了geo相关命令&#xff0c;用于存储和操作地理位置信息。提供的命令包括添加、计算位置之间距离、根据中心点坐标和距离范围来查询地理位置集合等&#xff0c;说明如下: geoadd&#xff1a;添加地理…

DCDC前馈电容与RC串并联电路

一、RC串并联电路特性分析 1、RC串联电路 RC 串联的转折频率&#xff1a; f01/&#xff08;2πR1C1&#xff09;&#xff0c;当输入信号频率大于 f0 时&#xff0c;整个 RC 串联电路总的阻抗基本不变了&#xff0c;其大小等于 R1。 2、RC并联电路 RC 并联电路的转折频率&…

02、Tensorflow实现手写数字识别(数字0-9)

02、Tensorflow实现手写数字识别&#xff08;数字0-9&#xff09; 01、Tensorflow实现二元手写数字识别&#xff08;二分类问题&#xff09; 02、Tensorflow实现手写数字识别&#xff08;数字0-9&#xff09; 开始学习机器学习啦&#xff0c;已经把吴恩达的课全部刷完了&…

zookeeper集群和kafka集群

&#xff08;一&#xff09;kafka 1、kafka3.0之前依赖于zookeeper 2、kafka3.0之后不依赖zookeeper&#xff0c;元数据由kafka节点自己管理 &#xff08;二&#xff09;zookeeper 1、zookeeper是一个开源的、分布式的架构&#xff0c;提供协调服务&#xff08;Apache项目&…

【Openstack Train安装】二、NTP安装

网络时间协议&#xff1a;Network Time Protocol&#xff08;NTP&#xff09;是用来使计算机时间同步化的一种协议&#xff0c;它可以使计算机对其服务器或时钟源&#xff08;如石英钟&#xff0c;GPS等等)做同步化&#xff0c;它可以提供高精准度的时间校正&#xff08;LAN上与…

ACM程序设计课内实验(2) 排序问题

基础知识‘ sort函数 C中的sort函数是库中的一个函数&#xff0c;用于对容器中的元素进行排序。它的原型如下&#xff1a; template <class RandomAccessIterator, class Compare> void sort (RandomAccessIterator first, RandomAccessIterator last, Compare comp);参数…

IC设计简单概述

IC设计行业是一个高科技行业&#xff0c;有着复杂而细致的分工&#xff0c;严格的流程规范、多种不同类型的EDA工具。下面简单概述以下几个方面。 IC设计公司的分类 IC设计公司有多种分类方法。若按有无芯片生产能力来分&#xff0c;可以分为兼具设计与生产能力&#xff08;I…

Shopee引流妙招!Shopee产品标签重要吗?教你有效打标签引爆流量!

对Shopee平台的卖家来说&#xff0c;在新产品上架时除了要注重产品title、介绍以及图文的优化&#xff0c;还有一件事情很重要&#xff0c;那就是——产品打标签。 对于每个跨境电商卖家来讲&#xff0c;对产品打标签都是必不可少的一个运营环节 下面小宇就来告诉大家&#xf…

SpringSecurity的默认登录页的使用

SpringSecurity的默认登录页的使用 01 前期准备 引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><!--mysql驱动--><dependency><grou…

主机的容器化技术介绍

☞ ░ 前往老猿Python博客 ░ https://blog.csdn.net/LaoYuanPython 一、什么是容器 容器是一个标准化的单元&#xff0c;是一种轻量级、可移植的软件打包技术&#xff0c;容器将软件代码及其相关依赖打包&#xff0c;使应用程序可以在任何计算介质运行。例如开发人员在自己的…

python pytorch实现RNN,LSTM,GRU,文本情感分类

python pytorch实现RNN,LSTM&#xff0c;GRU&#xff0c;文本情感分类 数据集格式&#xff1a; 有需要的可以联系我 实现步骤就是&#xff1a; 1.先对句子进行分词并构建词表 2.生成word2id 3.构建模型 4.训练模型 5.测试模型 代码如下&#xff1a; import pandas as pd im…

命名管道:简单案例实现

&#x1f4df;作者主页&#xff1a;慢热的陕西人 &#x1f334;专栏链接&#xff1a;Linux &#x1f4e3;欢迎各位大佬&#x1f44d;点赞&#x1f525;关注&#x1f693;收藏&#xff0c;&#x1f349;留言 本博客主要内容讲解了什么是命名管道&#xff0c;匿名管道和命名管道的…