回顾丨2023 SpeechHome 第三届语音技术研讨会

下面是整体会议的内容回顾:

18日线上直播回顾

18日上午9:30,AISHELL & SpeechHome CEO卜辉宣布研讨会开始,并简要介绍本次研讨会的筹备情况以及报告内容。随后,CCF语音对话与听觉专委会副主任、清华大学教授,国家工业信息安全发展研究中心人工智能所副所长刘永东对本次大会进行开幕致辞。

  开幕致辞

接下来是语音前沿技术音频生成两个主题的内容回顾。

  语音前沿技术

上午的语音前沿技术主题主题由AISHELL & SpeechHome CEO卜辉担任主持,分享嘉宾分别是谢磊、万玉龙、李明

谢磊分享的主题是《西工大ASLP实验室语音生成模型新进展》。报告分享了西工大音频语音与语言处理实验室在语音生成方面的进展,包括拟人化语音合成,基于语音因素解耦的表现力语音合成,基于自然语言的风格迁移、音色生成和语音转换,高表现力与实时语音转换、以及Vec Tok Speech多任务语音大模型技术。

万玉龙分享的主题是《交互式AI中语音技术实践与探索》。本次报告主要介绍了3点内容:1、亿级终端智能助理所面临的语音技术挑战及解决思路;2、音频类生成式AI在智能助理产品的创新实践;3、业务视角下,交互式A对语音技术的期许与展望。

李明分享的主题是《多通道、多人及非基于声纹编码向量的特定人语音抽取》。首先介绍了不直接使用声纹编码向量作为目标人先验信息的特定人语音抽取模型设计,其次在多人同步抽取及多通道语音输入这两个方面介绍团队最近的一些研究成果。

 音频生成

下午的音频生成主题由西交利物浦大学助理教授李圣辰担任主持,分享嘉宾分别是武执政、吴志勇、王文武、雪巍、卢恒

武执政分享的主题是《Amphion: An Open-Source Audio, Music and Speech Generation Toolkit》。This talk will present an open-source audio, audio and speech generation toolkit, namelyAmphion. The Amphion toolkit is design for education and reproducible research purpose. This talkfirst presents the state of the art for generation tasks, and discuss the design goal, implementation andcomparison with existing toolkits.

吴志勇分享的主题是《面向表现力语音合成的多尺度风格建模与生成》。报告介绍了表现力语音合成在对说话风格、情感、语调等进行精细化建模,以提高合成语音的自然度和拟人化表现能力。它在有声读物、AI主播、人机对话交互等领域有广阔的应用前景。然而,它也面临一系列挑战和难点。针对如何有效提取和表示多尺度的风格特征,提出了一种面向表现力语音合成的多尺度风格建模方法,使用多尺度参考编码器提取目标语音的全局和局部风格特征,提高语音合成的可控性、表现力和灵活性;针对如何在不损失自然度和可懂度的前提下实现风格控制和转换,提出了一种基于分块的多尺度跨说话人风格迁移方法;针对如何生成富有表现力和多样性的语音韵律等,提出了一种基于去噪扩散概率模型的韵律预测器。实验结果验证了所提方法在表现力语音合成方面的有效性和优势。

王文武分享的主题是《Text to Audio Generation》。Text-to-audio generation aims to produce an audio clip based on a text prompt which is a languagedescription of the audio content to be generated. This can be used as sound synthesis tools for film makinggame design, virtual reality/metaverse, digital media, and digital assistants for text understanding by thevisually impaired. To achieve cross modal text to audio generation, it is essential to comprehend the audioevents and scenes within an audio clip, as well as interpret the textual information presented in naturaanquage. ln addition, learning the mapping and alianment of these two streams of information is cruciaExciting developments have recently emerged in the field of automated audio-text cross modal generation. lnthis talk, we will give an introduction of this field, including problem description, potential applicationsdatasets, open challenges, recent technical progresses, and possible future research directions. We will startwith the conditional audio generation method which we published in MLSP 2021 and used as the baselinesystem in DCASE 2023. We then move on to the discussion of several algorithms that we have developedrecently, including AudioLDM,AudioLDM2, Re-AudioLDM,and AudioSep, which are getting increasinglypopular in the signal processing, machine learning, and audio engineering communities.

雪巍分享的主题是《高速高质量零资源歌声合成》。主要介绍了歌声合成面临标注数据极度缺失的问题,精标成本较高,且音色有限;宽音域强表现力的要求对合成质量提出更高标准。介绍了CoMoSpeech和ZSinger,使得基于扩散模型的歌声合成方法真正可以实时部署于工业级应用,并无需标注数据即可对任意人音色进行建模及歌词/旋律控制。

卢恒分享的主题是《语音AIGC技术进展--音频技术在喜马拉雅的研发和落地应用》。主要介绍喜马拉雅语音AIGC技术,包括文本分析,语音生成技术以及风格转换的大模型的研究以及落地。同时介绍我们在语音识别、音效以及全景声方面的一些工作。

19日线下参会回顾

19日以线下会议的形式举办,众多语音领域大神云集,各路语音技术爱好者慕名而来。现场共有2个会场,分为3个主题,分别是“音频与大模型”“数据与大模型”“语音开源技术”,大家共同探讨了相关的技术问题。我们还穿插了丰富的抽奖茶歇环节,大家在参会的同时也可以放松休息。

以下是精彩的会议报告。 

  音频与大模型

上午的音频与大模型主题由北京邮电大学副教授/博导李蓝天担任主持,分享嘉宾分别是欧智坚、钱彦旻、张王优、李晨达、何磊、易江燕、栾剑、张超。 

欧智坚分享的主题是《语音大模型的若干思考与猜测》。报告结合ChatGPT的技术发展历程以及语音本身特点,汇报了对语音大模型研究的几个思考,对“未来语音大模型是怎么样的?”给出我们的猜测,包括:1、是否能实现有原则的无监督学习?2、语音识别大模型如何与语言模型有效结合?3、语音识别与语音合成,是否能有效互助?4、多语言语音识别系统中,是否需要IPA知识的运用?报告也将分享我们的若干进展。

钱彦旻分享的主题是《Self-Supervised Learning for High-Performance Robust Speaker Verification》Automatic speaker verification task has made great achievements using deep learning approacheswith the large-scale manually annotated dataset. However, it's very difficult and expensive to collect alarge amount of well-labeled data for system building. Recently, self-supervised speaker verificationhas attracted a lot of interest by the reason of its no-dependency on labeled data. This talk will brieflyintroduce an advanced self-supervised learning framework which can construct a robust speakerverification system with high performance without using any labeled data. With our proposedmethods, the gap between unsupervised and supervised representation learning is dramaticallyreduced for speaker verification, and an approaching performance of the fully supervised system isobtained with our self-supervised learning method on speaker verification. 

张王优李晨达在线上为大家分享的主题是《ESPnet 2023 开发进展》。报告介绍了ESPnet开源工具在语音增强方面的进展。ESPnet-SE 是2020年6月开始筹备的ESPnet子项目,目的是为ESPnet 提供丰富的前端语音处理功能,包括降噪、去混响和语音分离等。在两年多的时间里ESPnet-SE 累计添加了对 24 种语音增强模型(12 种单通道模型 +12 种多通道模型)的支持并配有 22个覆盖从数据准备到模型训练及评估等全流程的 recipes,其中部分 recipe 在 Hugging Face 上提供了相应的已训练模型。ESPnet-SE也提供了对其他语音前端开源工具的兼容,如允许在ESPnet中直接加载并训练来自Asteroid 工具的模型。除此之外,ESPnet-SE 提供了将前端模型和其他下游语音任务(语音识别、语音翻译、口语理解等)进行结合的接口和示例,使得我们能够很容易实现前端模型和不同后端任务的联合训练或评估。本次报告重点介绍了ESPnet-SE工具的特色功能以及使用方法,并对后续开发计划进行简单梳理。

 

嘉宾:欧智坚、何磊、钱彦旻、易江燕、栾剑、张超 

圆桌会由李蓝天和卜辉主持,议围绕着“各位专家对大模型 GPT4 Turbo是如何理解的,有哪些值得学习和不足的地方”,“大模型更多是在文本交互、知识交流领域为主,音频大模型能否成为主流模型或者高价值模型”,“未来音频大模型的发展趋势是什么?如何把握”,“对在音频这个领域或者将要进如这个领域的学生,在选题方向有哪些建议”等问题展开激烈的讨论,欧智坚、何磊、钱彦旻、易江燕、栾剑、张超依次做出来精彩的解答。

  数据与大模型

上午的数据与大模型的主题由AISHELL & SpeechHome CEO卜辉担任主持,分享嘉宾分别是樊威、张超、邵志明

樊威分享的主题是《大模型数据资源面临挑战和发展路径》。报告主要分为3点:1、大模型数据发展现状及挑战;2、大模型数据治理总体思路;3、大模型数据治理落地思考。

张超分享的主题是《认知导向的视听觉大语言模型》报告介绍了ChatGPT作为一种大语言模型(Large Language Model,LLM),以文本输入和文本生成作为交互的主要手段,在自然语言和形式语言任务中展现了相当程度的任务通用性,但仍有许多不足。一个关键缺陷在于模型的语言认知与物理世界的多模态信息几乎无关ChatGPT的最新更新已支持图片和语音指令输入。可以把LLM类比为具有强语言认知能力的“大脑”,缺乏感官和身体,对物理世界的了解主要来自“想象”而非实际的“感受”。给LLM增加感知,尤其是音视频感知,既使LLM真正“能听会看”,也能提高已有音视频任务的准确性。

邵志明分享的主题是《AI算法赋能海天瑞声高质量数据生产》。本报告首先介绍海天瑞声语音数据生产环节使用的算法技术成果,以及针对平台预标注能力从多语种语音识别、自动切音、多通道对齐、重复发音人检测等技术的研究成果。其次,介绍海天瑞声在大模型数据生产方面的Know-how。 

  语音开源技术

下午的语音开源技术主题由清华大学副研究员王东和AISHELL & SpeechHome CEO卜辉担任主持,分享嘉宾分别是Daniel Povey、匡方军、卜辉、张彬彬、张仕良、康魏

Daniel Povey分享的主题是《Zipformer: an improved Encoder for ASR》。will talk about our alternative to the Conformer, the "Zipformer", which gives improved accuracy atlower cost. lt includes downsampling and upsampling, as in UNet, and many architectural changes; wealso introduce a modified optimizer called ScaledAdam.

匡方军分享的主题是《 Sherpa: 新一代 Kaldi 部署框架》。报告主要介绍了如何使用新一代Kaldi部署框架 Sherpa 在 Linux/macOS/Windows/Android/i0S 等不同环境中部署语音识别和语音合成模型。比如来自 icefall,Whisper,FunASR,WeNet 和 NeMo 等框架的语音识别模型,来自VITS-fast-fine-tuning,piper 和 coqui-ai 等基于 VITS 的语音合成模型。

卜辉分享的主题是《 AISHELL-Turbo Datasets for multimodal AI models》。报告介绍了AISHELL的语音数据集赋能了智能语音技术在家居、车载、机器人、会议等多场景的应用落地。开源项目也覆盖语音识别、声纹识别、语音合成、场景语音交互技术方案。在针对语音识别(ASR)模型的性能评测方面,构建了高质量语音评测数据集,评测项目开放了ASR模型的SOTA内容,包括Benchmark和Leaderboard,对智能语音产业及用户应用体验的提升都起到了促进作用。随着ChatGPT等大模型的出现,人工智能(A)多模态大模型可以同时处理多种模态数据,如同时处理图像、文本、语音等。大模型通常基于深度学习技术,利用大量的数据来训练,以实现多模态数据的跨模态理解和生成。当前的多模态大模型性能在多个评测数据集上的成绩已经超越人类对知识的掌控,在未来如何对大模型进行知识迭代、大模型的场景化落地等问题,AISHELL在今年启动了AISHELL-Turbo数据集计划。报告内容会对AISHELL-Turbo的数据集规划和目前的成果做介绍。

张彬彬分享的主题是《WeNet 开源社区最新进展》。报告主要介绍了WeNet 开源社区最新进展:1、数据集和预训练模型更新;2、wespeaker 更新;3、wenet 最新算法和方案设计。

张仕良分享的主题是《ModelScope语音开源现状和语音语义多模态大模型研究进展介绍》。报告首先总体介绍魔搭社区语音模态的开源现状,包含语音识别、语音合成、说话人识别等技术方向。其次就语音识别方向,会进一步介绍FunASR开源工具包,以及解析语音识别服务一键部署能力背后的技术。最后会介绍通义实验室关于语音语义多模态大模型(LauraGPT、Qianwen-AL)的最新研究和开源进展。

嘉宾:张仕良、张彬彬、康魏

圆桌会由卜辉主持,议围绕着“如何参与开源语音技术社区?”,“开源语音技术该如何规划?”等问题展开激烈的讨论,张仕良、张彬彬、康魏老师依次做出来精彩的解答。

最后主办方对大会做总结和鸣谢。至此,第三届SpeechHome语音技术研讨会圆满结束,期待与大家再次相见。各平台会议直播观看人数累计16000+,线下参会150人

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/238145.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux 一键部署TeamCity

前言 TeamCity 是一个通用的 CI/CD 软件平台,可实现灵活的工作流程、协作和开发实践。允许在您的 DevOps 流程中成功实现持续集成、持续交付和持续部署。 系统支持Centos7,8,9/Redhat7,8,9及复刻系列download TeamCity TeamCity 文档参考TeamCity downloaddownloadTeamCi…

[Unity]接入Firebase 并且关联支付埋点

首先 在这个下一下FireBase的资源 firebase11.0.6 然后导入Analytics Auth Crashlytics 其他的看着加就行 然后直接丢到Unity里面 接下来需要去Firebase里面下载 Google json 丢到 这个下面 然后就是脚本代码了 using System.Collections; using System.Collection…

一键批量管理HTML文档,轻松删除无用内容,提升网站性能!

随着互联网的快速发展,网站性能优化已经成为每个站长和开发者必须面对的问题。为了提升网站性能,我们需要对HTML文档进行高效的管理和优化。但是,手动管理大量HTML文件不仅效率低下,还容易出错。那么,有没有一种简单、…

2023 年人工智能研究与技术排名前 10 的国家

人工智能研究是一项全球性的工作。虽然美国和中国因其对人工智能的贡献而备受关注,但事实是,世界各国都在涉足这项技术,尝试新的突破,并吸引投资者的关注。 斯坦福大学的《2023年人工智能报告》估计,到 2022 年&#…

05-垃圾收集器ParNewCMS与底层三色标记算法详解

文章目录 垃圾收集算法分代收集理论标记-复制算法标记-清除算法标记-整理算法 垃圾收集器Serial收集器Parallel Scavenge收集器ParNew收集器CMS收集器 CMS的相关核心参数亿级流量电商系统如何优化JVM参数设置(ParNewCMS) 垃圾收集底层算法实现三色标记多标-浮动垃圾漏标-读写屏…

歌曲春节回家:李白的诗意与荆涛的歌声

歌曲春节回家:李白的诗意与荆涛的歌声 “春节回家,春节回家,又是一个春节到,漫天雪花飘。”随着歌手荆涛深情的嗓音,我们仿佛置身于那漫天飞雪的冬日,期待着与家人团聚的温馨时刻。这首歌曲不仅是对春节回…

数学建模笔记-拟合算法

内容:拟合算法 一.概念: 拟合的结果就是找到一个确定的曲线 二.最小二乘法: 1. 2.最小二乘法的二表示的是平方的那个2 3.求解最小二乘法: 三.评价拟合的好坏 1.总体评分和SST: 2.误差平方和SSE: 3.回…

机器学习:手撕 AlphaGo(一)

图 1-1: AphaGo 结构概览 1. 前言 AlphaGo 是一个非常经典的模型,不论从影响力还是模型设计上。它的技术迭代演进路径:AlphaGo,AlphaGoZero,AlphaZero,MuZero 更是十分精彩。相信有很多同学因为听了 AlphaGo 的故事对…

在Portainer创建Nginx容器并部署Web静态站点实现公网访问

🔥博客主页: 小羊失眠啦. 🎥系列专栏:《C语言》 《数据结构》 《Linux》《Cpolar》 ❤️感谢大家点赞👍收藏⭐评论✍️ 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,…

Leetcod面试经典150题刷题记录 —— 矩阵篇

矩阵篇 1. 有效的数独2. 螺旋矩阵Python 3. 旋转图像Python额外开辟数组空间原地置换法 4. 矩阵置零5. 生命游戏Python 1. 有效的数独 题目链接:有效的数独 - leetcode 题目描述: 请你判断一个 9 x 9 的数独是否有效。只需要 根据以下规则 ,验…

Android13 Wifi启动流程分析

Android13 Wifi启动流程分析 文章目录 Android13 Wifi启动流程分析一、正常开关wifi 启动流程1、WifiManager2、WifiServiceImpl3、ActiveModeWarden4、ConcreteClientModeManager5、WifiNative6、WifiVendorHal7、HalDeviceManager8、wifi.cpp 二、重启设备时自动开启wifi流程…

centos(linux)安装jenkins

官网:https://pkg.jenkins.io/redhat/ jdk版本要和jenkins对上! 安装官网进行操作: sudo wget -O /etc/yum.repos.d/jenkins.repo https://pkg.jenkins.io/redhat/jenkins.reposudo rpm --import https://pkg.jenkins.io/redhat/jenkins.io-…

Vue表格中鼠标移入移出input显示隐藏 ,有输入值不再隐藏

Vue表格中鼠标移入移出input显示隐藏 , 不再隐藏的效果 <el-tableref"table":data"tableDatas"borderstyle"width: 100%":span-method"arraySpanMethod"id"table"row-key"id"cell-mouse-enter"editCell&q…

如何把透明OLED显示屏介绍给用户人群

透明OLED显示屏是一种新型的显示技术&#xff0c;它具有透明度高、色彩鲜艳、对比度高、响应速度快等优点。下面是一些介绍透明OLED显示屏的要点&#xff1a; 透明度&#xff1a;透明OLED显示屏的最大特点是其透明度&#xff0c;它可以让光线透过显示屏&#xff0c;使得屏幕背后…

案例101:基于微信小程序的停车共享小程序

文末获取源码 开发语言&#xff1a;Java 框架&#xff1a;SSM JDK版本&#xff1a;JDK1.8 数据库&#xff1a;mysql 5.7 开发软件&#xff1a;eclipse/myeclipse/idea Maven包&#xff1a;Maven3.5.4 小程序框架&#xff1a;uniapp 小程序开发软件&#xff1a;HBuilder X 小程序…

node实现简单的数据爬虫

前言 我使用的是墨迹天气的页面&#xff0c;因为这个使用的链接简单 页面结构简单并且大都是文字形式 第一步 打开墨迹天气网址 随便点开一个页面 点击F12或者鼠标右键点击检查 查看页面的信息 分析页面内容 使用文字所在的class和标签来定位 编写代码 配置express环境 …

景区气象站:旅游体验的新升级

随着科技的发展和人们生活水平的提高&#xff0c;越来越多的人选择在节假日或周末外出旅游&#xff0c;感受大自然的美好。然而&#xff0c;在享受大自然的同时&#xff0c;天气因素成为了影响旅游体验的关键因素之一。为了更好地服务游客&#xff0c;许多景区开始引入气象站&a…

多层负载均衡实现

1、单节点负载均衡 1&#xff09;站点层与浏览器层之间加入了一个反向代理层&#xff0c;利用高性能的nginx来做反向代理 2&#xff09;nginx将http请求分发给后端多个web-server 优点&#xff1a; 1&#xff09;DNS-server不需要动 2&#xff09;负载均衡&#xff1a;通过ngi…

【每日一题】得到山形数组的最少删除次数

文章目录 Tag题目来源解题思路方法一&#xff1a;最长递增子序列 写在最后 Tag 【最长递增子序列】【数组】【2023-12-22】 题目来源 1671. 得到山形数组的最少删除次数 解题思路 方法一&#xff1a;最长递增子序列 前后缀分解 根据前后缀思想&#xff0c;以 nums[i] 为山…

用C#也能做机器学习?

前言✨ 说到机器学习&#xff0c;大家可能都不陌生&#xff0c;但是用C#来做机器学习&#xff0c;可能很多人还第一次听说。其实在C#中基于ML.NET也是可以做机器学习的&#xff0c;这种方式比较适合.NET程序员在项目中集成机器学习模型&#xff0c;不太适合专门学习机器学习&a…