深入浅出AI落地应用分析:AI音乐生成之「Suno.ai」

接下来会每周集中体验一些通用或者垂直的AI落地应用,主要以一些全球或者国外国内排行较前的产品为研究对象,「AI 产品榜: aicpb.com」以专题的方式在博客进行分享。
在这里插入图片描述
本节主要介绍和体验AI音乐生成应用产品Suno AI,Suno来自目前最强的文字转音频(TTS)开源模型 Bark。
产品链接:https://app.suno.ai/

一、产品介绍

Suno,印地语中意为「倾听」。
在这里插入图片描述
与多数 AI 音乐应用不同的是,它专注于创作全新旋律和人声,而不是模仿已有的知名艺术家声音或歌曲风格。首席执行官兼联合创始人 Mikey Shulman 表示,尽管以特定艺术家风格创作新歌很酷、很有趣,但长期来看,这种体验不会给消费者带来持久的乐趣。

他们的理念是让更多人收获创作音乐的乐趣,同时也更加重视人声音乐。Mikey Shulman 表示「大多数人不会演奏乐器,也不了解复杂的软件,到目前为止,这一直是创作优美音乐的障碍。声乐也是其中一个非常重要的组成部分,也是「Suno」的与众不同之处。」

二、功能简介

  1. 创建自己的音乐
    Suno 的使用方式非常简单,直接用自然语言描述想要生成的音乐,可以是想要的主题、音乐风格或大概的情绪氛围(比如:「一个关于祭奠过去的自己的歌曲,风格偏灵魂和民谣」)。然后,Suno 会生成两首旋律和歌词各不相同的曲子。讲真蛮好听😁
    在这里插入图片描述
    我制作的「我的旅程」:https://app.suno.ai/song/ce2c8d96-0d2a-4c04-b88b-2b6ba2153a93

  2. 编辑已经创建的音乐
    也可以在 Suno 生成的作品基础上进行进一步地编辑,比如修改歌词和音乐风格,或者生成一首完整的曲目。目前,用户还可以自己编写并上传歌词,选择想要的风格(如「情感乡村民谣」)来生成相应歌曲。
    在这里插入图片描述

  3. 浏览别人的作品
    在这里插入图片描述

排行第一的作品:https://app.suno.ai/song/5357415b-a202-4798-af1b-3bea6e8939bd

三、技术模型

Suno开发了两个深度学习模型, Bark和Chirp。Bark 表示狗叫的声音,Chirp是鸟儿嘁嘁喳喳的声音。主要区别在于它们的用途和功能。这些模型利用了人声、旋律、节奏作为训练数据。

Suno Bark是一个基于Transformer的文本到音频的模型。它可以生成高度逼真的多语言语音以及其他音频。此外,该模型还可以产生非语言交流,如笑、叹气和哭泣。Bark是一个开源模型,Github地址为https://github.com/suno-ai/bark。

Chirp是Suno AI的最新音乐模型。它使用先进的AI技术生成真实和高质量的音频内容,如语音、音乐及音效。

总的来说,Bark主要用于生成语音和其他音频,而Chirp则专注于音乐生成。

四、盈利模式

用户在官网登录后即成为免费版本用户,每天可以使用 5 次提示,可生成 10 首歌曲。Suno 的盈利模式为会员订阅,每月支付 8 美元可生成 500 首歌曲,每月支付 24 美元的用户可生成 2000 首歌曲,同时还提供年度订阅折扣。
在这里插入图片描述

Suno目前提供免费计划及多种付费订阅计划。

  1. 免费计划:
  • 所有用户在加入Suno的Discord时都将自动订阅免费计划。
  • 免费计划现在每天包括50个积分(5次Chirps)。
  1. 专业计划Pro:
  • 专业计划每月费用为$8。
  • 专业计划用户享有每月2,500个积分。
    付费订阅用户(Pro或Premier)在订阅期间生成的歌曲归其所有。对于免费用户,Suno保留对生成的歌曲的所有权,但允许其用于非商业目的。

五、产品剖析

跟 AI 生成文本和图像相比,使用 AI 生成可用的音乐要困难得多。音乐的复杂性远超语言,它包含了丰富的情感和细微的表达。AI 需要学会如何在保持音乐连贯性的同时,捕捉和复制这些微妙的情感变化。系统需要处理更多元素,从语音到个别音符、排列和流程。

AI 生成音乐的难点包括:

  • 复杂性:音乐具有多层次的结构和丰富的情感表达,这要求模型能习得复杂的音乐理论,并能够理解并模拟人类情感。

  • 数据量和质量:高质量的音乐数据集对于训练有效的 AI 音乐生成模型至关重要。然而,获取大量、多样化且高质量的音乐数据集来训练和解读音乐风格及情绪描述仍然非常困难。

  • 长期连贯性:音乐中的某些模式可能跨越很长的时间跨度,这对于模型来说是一个挑战,因为它们需要记住并利用这些信息来生成连贯的音乐。

  • 风格和情感的表达:捕捉和复制特定风格或情感的音乐是非常复杂的,这需要模型能够理解和模拟音乐的情感维度。

  • 评估和反馈:评估生成的音乐质量是一个主观过程,缺乏客观的度量标准。此外,模型可能需要反馈来改进,但在音乐领域,这种反馈机制不如图像或文本生成领域成熟。

  • 版权和伦理问题:AI 生成的音乐可能涉及到版权问题,尤其是在模仿特定艺术家或作品风格时。此外,还需要考虑 AI 在艺术创作中的角色和伦理责任。

尽管存在这些挑战,AI 音乐生成技术仍在不断发展,研究人员正在探索新的方法来克服这些问题,以创造出更加丰富和多样的音乐作品。

六、相关竞品

在这里插入图片描述

2023年1月微软宣布与Suno的合作,在微软的AI聊天机器人Copilot中以插件的方式集成Suno。

现在,Copilot用户可以通过微软聊天机器人直接访问Suno,例如直接在文本框中输入:“Create a pop song about adventures on Mars”。

除了Suno之外,其他大型科技公司也在测试生成式AI音乐工具,如Meta的开源音频工具AudioCraft,该工具也可以根据文本提示生成歌曲,以及谷歌的YouTube工具,该工具可以根据哼唱的歌曲或文本提示生成原创音乐曲目。

此外,还有许多其他承诺提供类似工具的AI音乐初创公司进入市场,如Soundful、Magenta、Beatbox(可以生成节奏和器乐曲目)、Soundraw、Loudly、Boomy、Beatoven.ai等。

七、关于AI音乐生成

从B端和C端来看,音乐生成类产品的应用场景十分广泛。TTS(文本到语音)技术大幅降低了电影、电视、游戏和广告等领域的音频制作成本。电影和游戏制作公司需要大量的背景音乐和音效,AI可以根据特定场景批量生产相应的音频,而广告公司也可以利用这一技术创建独特的广告音乐,以增强广告效果。

在消费者市场领域,随着音乐创作门槛的显著降低,人们有望通过音乐进行自我表达,使音乐成为互联网交流的一种独立内容形式。

目前,互联网的内容主要由文字、图片和视频构成,对应的热门社交产品分别是以文字为主的推特、微博,以图文为主的Instagram、小红书,以视频为主的抖音(Tiktok)。根据内容创作的不同出发点,可分为记录事实和艺术创作,分别侧重熟人社交和陌生人社交。

Instagram 最初通过提供好看的滤镜来美化照片,聚焦记录现实并让现实更美一点,最初获得摄影师的欢迎与推广。之前在 Gen-Z 群体中广泛流行的 Snapchat 故事将拍照从一种 "艺术 "形式变成了一种低门槛的交流方式,全球月活用户达到 7.5 亿。在图文领域,与 Instagram、Snapchat 对应的产品是图片社交分享网站 Pinterest,不同于熟人社交的网络关系链而更偏兴趣社交场景。

相比于图文和视频,音乐真的适合自我表达吗?人们往往把音乐当成一种属于音乐爱好者的小众表达方式,而忽略了声音作为最古老的交流媒介所承载的社会文化意义。但仔细想想,自石器时代以来,乐器演奏和集体合唱就是社会和组织中创造叙事最核心的部分,比如国歌、校歌、队歌、新闻联播的前奏,和我们在 KTV 里必点的那首属于青春的歌。

音乐在人类之间创造了一种共同的语言和文化,是个体与组织层面最社会化的自我表达形式之一。然而目前还没有出现以音乐作为独立内容载体的产品,主要原因可能来自音乐创作的复杂性和相应情感表达的模糊性。

音乐创作包含歌词和音频两部分,依赖复杂的乐理和器乐知识。同时,音乐作为时间戳上的连贯性内容,创作需要「所见即所得」的及时反馈。当我们开始演奏一种声音时,就会形成一个反馈回路(feedback loop),当节拍或音调不合适我们会立刻感知到,而如果形成正确的反馈回路我们则会顺畅地进入「心流」状态。然而,目前的多数音乐制作工具都不支持这种流动状态,让音乐创作变得非常困难。

生成式 AI 技术能够实现内容创作的连贯性与反馈及时性。

另一方面,音乐真的可以实现不同情感的表达吗?「声无哀乐」是魏晋时期著名的音乐家、文学家嵇康的观点,他认为声音本身没有哀乐之分,是人的情感赋予了声音哀乐。声音本质上作为一种波动现象,本身是中性的。人在听到特定音乐或声音时产生的情绪反应,是大脑处理声音信息的过程中的生理反应。特定的声音频率、节奏和音调可以刺激我们的大脑和神经系统,使我们感到兴奋、轻松、紧张或悲伤。

比如,大脑会在听到快节奏音乐时产生兴奋反应,在听到小调音乐时产生悲伤反应。这种自动化的情绪反应并非完全是我们赋予声音的过程,而是人的生理反应。因此,对不同音乐进行情感表达也依赖大量的标注数据。

SunoAI 目前生成的歌曲已经具备了较高的专业度和可拆解性,用户可以对曲风和情感进行描述和调整。通过音乐实现跨文化的自我表达,或许就在不远的未来。

七、参考资料

  1. 第一款现象级音乐生成产品 Suno:以后的爆款歌曲可能要被 AI 承包了
  2. 从Suno.ai谈内容创作:「协同人类」而非取代人类将是未来AI的核心定位
  3. 看到有一个新朋友只做了一个MV,可以观摩一下。全AI生成动漫风视频《CELANOSS》

《CELANOSS》
-脚本:ChatGPT
-分镜:Midjourney
-视频:Runway/Pika/Pixverse
-音乐:Suno
-剪辑:CapCut

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/642044.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HQL,SQL刷题简单查询,基础,尚硅谷

今天刷SQL简单查询,大家有兴趣可以刷一下 目录 相关表数据: 题目及思路解析: 总结归纳: 知识补充: 关于LIKE操作符/运算符 LIKE其他使用场景包括 LIKE模糊匹配情况 相关表数据: 1、student_info表 2、sc…

Unity中URP下获取主灯信息

文章目录 前言一、计算BulinnPhone的函数有两个重载1、 目前最新使用的是该方法(这是我们之后主要分析的函数)2、 被淘汰的老方法,需要传入一堆数据 二、GetMainLight1、Light结构体2、GetMainLight具有4个方法重载3、1号重载干了什么&#x…

主动轮廓——计算机视觉中的图像分割方法

​ 一、说明 简单来说,计算机视觉就是为计算机提供类似人类的视觉。作为人类,我们很容易识别任何物体。我们可以很容易地识别山丘、树木、土地、动物等,但计算机没有眼睛,也没有大脑,因此它很难识别任何图像。计算机只…

Linux下软件安装的命令【RPM,YUM】及常用服务安装【JDK,Tomcat,MySQL】

Linux下软件安装的命令 源码安装 以源代码安装软件,每次都需要配置操作系统、配置编译参数、实际编译,最后还要依据个人喜好的方式来安装软件。这个过程很麻烦很累人。 RPM软件包管理 RPM安装软件的默认路径: 注意: /etc 配置文件放置目录…

docker network网络

网络分类 bridge网络 bridge是docker默认网络模式,docker安装后会选择一个私有网段作为bridge的子网,在我们创建容器时默认会将容器网络加入到这个子网中。 原理:Docker Daemon(后台进程) 利用 veth pair 技术&#…

3dmax渲不出模型是什么原因---模大狮模型网

3DMax无法渲染模型可能有多种原因。以下是一些常见的问题和解决方法: 材质设置错误:检查模型的材质设置是否正确,包括纹理贴图的路径、UV映射是否正确等。确保材质的属性设置正确,如颜色、反射率、透明度等。 灯光设置问题&#…

【JS逆向学习】某壁纸下载(ast混淆)

逆向目标 目标网址:https://bz.zzzmh.cn/index逆向接口一:https://api.zzzmh.cn/bz/v3/getData逆向接口二:https://cdn2.zzzmh.cn/wallpaper/origin/0d7d8d691e644989b72ddda5f695aca2.jpg?response-content-dispositionattachment&aut…

AnimatedDrawings:让绘图动起来

老样子,先上图片和官网。这个项目是让绘制的动画图片动起来,还能绑定人体的运动进行行为定制。 快速开始 1. 下载代码并进入文件夹,启动一键安装 git clone https://github.com/facebookresearch/AnimatedDrawings.gitcd AnimatedDrawingspip…

react18介绍

改进已有属性,如自动批量处理【setState】、改进Suspense、组件返回undefined不再报错等 支持Concurrent模式,带来新的API,如useTransition、useDeferredValue等 如何升级React 18 npm install reactlatest react-domlatestnpm install ty…

VS2022 在非Qt项目中引用QString、QList等方法

目录 一、新建项目 二、拷贝 三、工程属性设置 四、测试 一、新建项目 在VS中创建了一个c控制台项目,会默认打印“Hello world”; 二、拷贝 需要拷贝的包括QtCore相关的lib, dll, 以及头文件; 1、lib文件 在下述qt安装路径下拷贝Qt5…

[设计模式Java实现附plantuml源码~创建型] 对象的克隆~原型模式

前言: 为什么之前写过Golang 版的设计模式,还在重新写Java 版? 答:因为对于我而言,当然也希望对正在学习的大伙有帮助。Java作为一门纯面向对象的语言,更适合用于学习设计模式。 为什么类图要附上uml 因为很…

07章【常用类库API】

字符串操作 String类 String可以表示一个字符串。String类实际是使用字符数组存储的。 String类的两种赋值方式: 一种称为直接赋值: String name “小白” 通过关键字new调用String的构造方法赋值 String name new String(“小白”)String类的两…

【Github】作为程序员不得不知道的几款Github加速神器

背景 众所周知,近几年国内用户在访问Github时,经常间歇性无法访问Github。 接下来推荐几款 作为程序员不得不知道的Github加速神器。 推荐1:FastGithub FastGithub是一款Github加速神器,解决github打不开、用户头像无法加载、r…

【数据结构和算法】--- 二叉树(3)--二叉树链式结构的实现(1)

目录 一、二叉树的创建(伪)二、二叉树的遍历2.1 前序遍历2.2 中序遍历2.3 后序遍历 三、二叉树节点个数及高度3.1 二叉树节点个数3.2 二叉树叶子节点个数3.3二叉树第k层节点个数3.4 二叉树查找值为x的节点 四、二叉树的创建(真) 一、二叉树的创建(伪) 在学习二叉树的基本操作前…

Unity Text超框 文字滚动循环显示

Unity Text超框 文字滚动循环显示 //container Text using System.Collections; using System.Collections.Generic; using Unity.VisualScripting; using UnityEngine; using UnityEngine.UI;public class AutoScrollText : MonoBehaviour {private Text[] _texts new Text[…

MATLAB字符串编辑常用代码

1.字符串赋值 % 字符串赋值 sabcdefg 2.字符串属性和操作 (1)获取字符串长度 sabcdefg;% 字符串赋值 length(a) % 获取字符串长度 (2)连接字符串 % 连接两个字符串,每个字符串最右边的空格被裁切 s1a s2b s3strcat(s1,s2) 3.字符串比较 % strcmp 比较两个字符串是…

9. UE5 RPG创建UI(下)

在上一篇文章里,制作了显示血量和蓝量的ui,并且还将ui和获取数据使用的控制器层创建出来并初始化成功。现在只有主用户控件上面被添加了控制器层,还未给每个用户控件赋予控制器层。接下来要实现对属性的广播功能,在属性值变化的时…

gitlab.rb主要配置

根据是否docker安装,进入挂载目录或安装目录 修改此文件,我一般是在可视化窗口中修改,有时候也在命令行手敲 将下面的配置复制到该文件中 external_url http://192.168.100.50 # nginx[listen_port] = 8000 (docker安装的这一行不需要,因为端口映射导致此处修改会导致访问…

2024茶饮品牌如何出圈,媒介盒子分析

随着新式茶饮的消费场景更加多元化,品类不断拓宽,消费者对新式茶饮的热情也是只增不减。居民可支配收入水平不断上升,居民消费升级为新式茶饮的发展也提供了良好基础,今天媒介盒子就来和大家聊聊:2024茶饮品牌如何出圈…

win10系统 pdf 文件无法正常预览

网上也看了不少办法,修改注册表什么的,太麻烦了,尝试了一下下载Adobe Acrobat Reader,安装后就可以成功预览显示啦!对,就是这么简单!Adobe Acrobat Reader下载链接:link