阿里巴巴开源自然语音交互框架;在抱抱脸上使用LivePortrait;58种提示技术的工具库

✨ 1: FunAudioLLM

FunAudioLLM是一个为人类和大型语言模型(LLMs)之间自然语音交互打造的语音理解和生成基础框架。

在这里插入图片描述

FunAudioLLM 是阿里巴巴集团Tongyi SpeechTeam推出的用于增强人类与大语言模型(LLM)自然语音交互的框架。该框架的核心包括两个创新的模型:SenseVoice和CosyVoice。

SenseVoice:这是一个多功能语音理解模型,具备高精度的多语言语音识别、情感识别和音频事件检测能力。其支持超过50种语言,延迟极低。

CosyVoice:这是一个自然语音生成模型,具备多语言、音色和情感控制能力。其在多语言生成、零样本生成、跨语言语音克隆和指令跟随能力方面表现出色。

FunAudioLLM整合SenseVoice和CosyVoice,实现了语音翻译、情感语音聊天、互动播客和富有表现力的有声书叙述等应用。这些模型已在Modelscope和Huggingface开源,并在GitHub上发布了相关的训练、推理和微调代码,推进了语音交互技术的发展。

语音翻译:通过SenseVoice、LLM和CosyVoice的结合,实现高效的语音-语音翻译,支持多种语言之间的互译。
情感语音聊天:利用SenseVoice和CosyVoice,可以开发情感语音聊天应用,生成情感丰富的对话内容。
互动播客:结合SenseVoice和基于LLM的多智能体系统,可以创作实时互动的播客内容。
表现力有声书:通过LLM对书中情感的分析和CosyVoice的语音合成,生成富有表现力的有声书。

地址:https://fun-audio-llm.github.io/

✨ 2: LivePortrait

LivePortrait是KwaiVGI在Hugging Face发布的一个正在运行的项目。

在这里插入图片描述

使用 AI 完全控制图像中面部的运动,还支持动漫,你把它与视频生成AI结合起来,你可以创造出惊人的作品。

LivePortrait 在 Hugging Face 的地址

地址:https://huggingface.co/spaces/KwaiVGI/LivePortrait

✨ 3: ComfyUI-KwaiKolorsWrapper

ComfyUI-KwaiKolorsWrapper 是用于运行 Kwai-Kolors 文本生成图像管道的基础封装工具。

在这里插入图片描述

ComfyUI-KwaiKolorsWrapper 是一个基础的包装器,用于使用 diffusers 运行 Kwai-Kolors 的 text2image(文本到图像)流水线。

地址:https://github.com/kijai/ComfyUI-KwaiKolorsWrapper

✨ 4: ControlNet++

ControlNet++ 是一个支持多种图像生成与编辑控制的全能模型。

在这里插入图片描述

ControlNet++ 是一款用于图像生成和编辑的全能控制网络。其网络结构支持 10 多种控制类型的文本到图像生成,并能够生成视觉效果媲美 MidJourney 的高分辨率图像。基于原始的 ControlNet 结构,ControlNet++ 设计了两个新模块:

  1. 扩展原始 ControlNet,以支持使用相同网络参数的不同图像条件。
  2. 支持多个条件输入而不增加计算负担,这对希望详细编辑图像的设计师特别重要,不同的条件使用相同的条件编码器,不增加额外的计算或参数。

地址:https://huggingface.co/xinsir/controlnet-union-sdxl-1.0

✨ 5: quality-prompts

Quality Prompts是一个包含58种提示技术的工具库,可以快速评估和使用提示方法。

在这里插入图片描述

Quality Prompts 是一个实现和评估提示技术的库,提供快速创建和测试提示的工具。它实现了 58 种提示技术,这些技术均在 OpenAI、微软等企业的研究中进行了阐述。

地址:https://github.com/sarthakrastogi/quality-prompts



更多AI工具,参考国内AiBard123,Github-AiBard123 公众号:每日AI新工具

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/43353.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

去中心化 RAG 先行者,KIP Protocol 如何保护数据所有权、激活 AI 资产

AI 时代,人人都应实现 KnowledgeFi 的梦想或许并不遥远,KIP Protocol 正在生动践行这一价值理念,带动去中心化数字产权的创建与盈利,面向 CryptoAI 的蓝海市场迈出创新探索的技术步伐,朝着 Web3 行业打造去中心化 AI 的…

python:使用openpyxl模块处理excel

前言 最近在实践excel的处理,在此途中,我彻底抛弃了xlwt xlrd的组合,投入了openpyxl这一模块的怀抱。 并成功实现了excel单元格数据的快速访问、修改、样式保持,以及添加填充色等功能。 至于为什么写这个博客,主要是因…

前端面试题25(css常用的预处理器)

在前端开发领域,CSS预处理器在面试中经常被提及,其中最流行的三种预处理器是Sass、LESS和Stylus。下面分别介绍它们的特点和优势: 1. Sass(Syntactically Awesome Style Sheets) 优势: 变量:允…

RK3588开发笔记(四):基于定制的RK3588一体主板升级镜像

若该文为原创文章,转载请注明原文出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/140288662 长沙红胖子Qt(长沙创微智科)博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV…

【机器学习】使用决策树分类器预测汽车安全性的研究与分析

文章目录 一、决策树算法简介决策树的结构分类和回归树 (CART)决策树算法术语决策树算法直觉 二、属性选择度量信息增益熵 基尼指数计算分割基尼指数的步骤 三、决策树算法中的过度拟合避免过度拟合的方法 四、导入库和数据可视化探索性数据分析重命名列名查看数据集的总结信息…

python库(8):re库实现字符串处理

1 re库简介 Python 的re库是一个功能强大的正则表达式模块,它允许用户执行各种复杂的字符串匹配和处理任务。 以下是re库的主要功能: 搜索:re.search() 用于搜索字符串中第一次出现的模式。匹配:re.match() 从字符串的开始位置…

ggplot2绘图点的形状不够用怎么办?

群里有这么一个问题: 请问老师,fviz_pca_ind 做pca,当设置geom.ind “point”,group>6时,就不能显示第7,8组的点,应该如何处理(在不设置为文本的情况下),…

go-ext-sm2国密PHP扩展 密文指定排序、识别ans1编码等功能

go-ext-sm2 介绍 基于go-gmsm静态库编写的SM2椭圆曲线公钥密码算法PHP扩展 相较于openssl-ext-sm2编译更方便 增加了密文指定排序、识别ans1编码等功能 特性:非对称加密 git地址:https://gitee.com/state-secret-series/go-ext-sm2.git 软件架构 z…

该让医疗垂类大模型,走出“试题”了

图源:123rf “现阶段,许多医疗垂类大模型就是伪命题,推理能力不行。” 一位观望大模型已久的医疗从业者玄彬(化名)发出了极为尖锐的批评。 在他看来,目前人工智能是靠scaling law涌现的,模型性…

【Icon】矢量图、小图标、logo、资源网站,免费获取

要获取汽车和轮船的UI小图标、矢量图,可以访问以下一些网站,这些网站提供了丰富的图标和矢量图资源,适用于各种设计需求: 1. Flaticon 网站地址:https://www.flaticon.com/ 特点:Flaticon是一个与FreePik同一家公司的网站,专门为设计师找寻免费素材。它提供了大量高质…

【前端】使用chrom浏览器Network,查看前后台数据传输请求

使用chrom浏览器Network查看前后台数据传输请求 写在最前面查看前后台数据传输请求① 首先,打开开发者工具(F12)打开控制台,切换到Network面板。Network面板右键界面copy ②清空请求log ctrle两次或者点击clear图标 案例展示&…

鸿蒙开发HarmonyOS NEXT (三) 熟悉ArkTs (上)

一、自定义组件 1、自定义组件 自定义组件,最基础的结构如下: Component struct Header {build() {} } 提取头部标题部分的代码,写成自定义组件。 1、新建ArkTs文件,把Header内容写好。 2、在需要用到的地方,导入…

html——VSCode的使用

快捷键 快速生成标签:标签名tab 保存文件:CtrlS 设置自动保存【文件】→【自动保存】 快速查看网页效果:右击→Open in Default Browser 快捷键:altb 注意:必须安装了open in brows…

转载!abap代码规范

01、在增强里面禁止显式或者隐式提交(ZILOG所在函数如果用在增强里面,不要COMMIT) 02、WAIT、异步RFC,都会触发隐式提交,所以禁止在增强内以及禁止提交的场合使用 03、FOR ALL ENTRIES一定要判断内表是否为空且尽量删除重复,SEL…

软考高级第四版备考--第13天(规划资源管理)Plan Resoure Management

定义:定义如何估算、获取、管理和利用团队以及实物资源的过程。 作用:根据项目类型和复杂程度确定适用与项目资源的管理方法和管理程度 输入:项目章程、项目管理计划(质量管理计划、范围基准)、项目文件(…

域渗透与横向渗透:获取域控制器最高权限的技术与策略

域渗透与横向渗透:获取域控制器最高权限的技术与策略 引言 域控制器是组织网络中的核心组件,负责管理用户账户、安全策略和网络资源访问。横向渗透是攻击者在内网中移动并控制更多系统的过程。获取域控制器的最高权限意味着攻击者可以对整个网络进行操…

windows10下的游戏怎么卸载?

在Windows 10中卸载游戏可以通过多种途径进行,下面是一些常见的方法: 方法一:通过“设置”应用卸载 1. 点击左下角的“开始”按钮,打开“开始”菜单。 2. 选择“设置”图标(齿轮形状)。 3. 在“设置”窗…

2024年5款最佳免费博客程序——对比和测评

多年来,我试用了许多不同的博客网站,并评估了它们在各种需求上的表现。这篇文章记录了我的发现(截至2024年),旨在帮助您为您的项目选择最佳解决方案。 我将介绍五个非常优秀的博客平台,它们让您能够轻松创建…

QTreeWidget 树遍历

在项目中遇到一个问题:需要将QString路径,做成一棵树的样式展示出来。其实倒不是说是问题,只是记录写这块儿的代码的思路 前提:我的所有的QString都是用"/"进行分割的,分割后的list中第一个元素是公共的路径…

知识改变命运 第二集:Java的数据类型与变量

数据类型与变量 1. 字面常量2. 数据类型3. 变量3.1 变量概念3.2 语法格式3.3 整型变量3.3.1 整型变量3.3.2 长整型变量3.3.3 短整型变量3.3.4 字节型变量 3.4 浮点型变量3.4.1 双精度浮点型3.4.2 单精度浮点型 3.5 字符型变量3.6 布尔型变量3.7 类型转换3.7.1 自动类型转换(隐式…