Meta FAIR研究新成果:图像到文本、文本到音乐的生成模型,多标记预测模型以及AI生成语音检测技术

Meta AI研究实验室(FAIR)公开发布了多项新研究成果,包括图像到文本和文本到音乐的生成模型,多词预测模型,以及检测AI生成语音的技术。发布的成果体现了开放性、协作、卓越和规模化等核心原则。公开早期研究工作旨在激发迭代,推动AI负责任发展。

  • Meta Chameleon系列模型可将文本和图像作为输入,输出任意文本和图像组合。已发布7B和34B模型的关键组件。

  • 发布多词预测预训练语言模型代码,可更高效训练语言模型。

  • 发布JASCO文本到音乐生成模型,可接受各种条件输入如音调、拍子等,改进对生成音乐的控制。

  • 发布AudioSeal,首个专为检测AI生成语音设计的音频水印技术,可实现对语音片段中的AI内容进行本地化检测。

  • 发布PRISM数据集,记录1500名参与者与21个LLM的交流及反馈,用于探索反馈过程的方法、领域和目标。

  • 发布GEO评估工具,用于评估文本到图像模型中的潜在地域差异;并探索了改进多样性的方法。

十多年来,Meta 的基础人工智能研究 (FAIR) 团队一直致力于通过开放研究推动人工智能的发展。随着该领域的创新继续快速发展,我们认为与全球人工智能社区的合作比以往任何时候都更加重要。保持开放的科学方法并与社区分享我们的工作有助于我们坚持我们的目标,即构建适合每个人并让世界更加紧密的人工智能系统。

今天,我们很高兴与全球社区分享一些最新的 FAIR 研究模型。我们公开发布了六项研究成果,重点关注我们工作的核心主题:创新、创造力、效率和责任。这些发布包括图像到文本和文本到音乐的生成模型、多标记预测模型以及用于检测 AI 生成的语音的技术。通过公开分享我们的早期研究工作,我们希望激发迭代并最终以负责任的方式帮助推动 AI 的发展。我们迫不及待地想看看社区使用这些最新版本构建了什么,并继续与开源社区进行重要的对话。

Meta Chameleon

Meta Chameleon 是一个模型系列,它可以将文本和图像组合为输入,并以单一统一的架构输出任意文本和图像组合,用于编码和解码。

虽然大多数当前的后期融合模型使用基于扩散的学习,但 Meta Chameleon 对文本和图像使用标记化。这可以实现更统一的方法,并使模型更易于设计、维护和扩展。可能性无穷无尽 - 想象一下为图像生成创意标题或使用文本提示和图像的混合来创建一个全新的场景。

Multi-Token Prediction

大多数LLM都有一个简单的训练目标:预测下一个单词。虽然这种方法简单且可扩展,但效率也很低。与孩子们学习同等程度的语言流利程度相比,它需要的文本要多几个数量级。

今年4月,我们提出了一种新的方法,通过使用多令牌预测来构建更好更快的llm。使用这种方法,我们训练语言模型一次预测多个将来单词,而不是旧的一次预测一个单词的方法。这提高了模型能力和训练效率,同时允许更快的速度。本着负责任的开放科学精神,我们在非商业/仅限研究的许可下发布了预训练的代码完成模型。我们希望这能使研究界独立地研究我们的方法和训练模型的行为。

AudioSeal

生成式 AI 工具正在激励人们在社交媒体上与朋友、家人和关注者分享自己的创作。与所有 AI 创新一样,我们必须尽自己的一份力量来帮助确保负责任地使用这些工具。今天,我们发布了 AudioSeal,我们认为这是第一种专门为局部检测 AI 生成的语音而设计的音频水印技术,可以精确定位较长音频片段中的 AI 生成的片段。AudioSeal 通过专注于检测 AI 生成的内容而不是隐写术来改进传统的音频水印。与依赖复杂解码算法的传统方法不同,AudioSeal 的局部检测方法可以实现更快、更高效的检测。与以前的方法相比,这种设计将检测速度提高了 485 倍,使其非常适合大规模和实时应用。我们的方法在音频水印的稳健性和不可感知性方面实现了最先进的性能。

AudioSeal 是根据商业许可发布的。这只是我们为防止滥用生成式 AI 工具而分享的几条负责任的研究路线之一。我们在基础文本和语音翻译模型SeamlessM4T v2和Audiobox生成的语音样本中加入了类似的水印。我们在最近的版本中进一步详细介绍了针对图像、语音和文本模型的水印方法。

JASCO:Text-to-Music

生成式人工智能使人们能够以新的方式探索创造力,例如将文本提示转换为音乐片段。虽然现有的文本转音乐模型(如MusicGen)主要依靠文本输入来生成音乐,但我们的新模型“用于时间控制文本转音乐生成的元联合音频和符号条件”(JASCO)能够接受各种条件输入,例如特定的和弦或节拍,以改善对生成的音乐输出的控制。具体来说,我们将信息瓶颈层与时间模糊结合使用,以提取与特定控制相关的信息。这允许在同一个文本转音乐生成模型中同时结合符号和基于音频的条件。

结果表明,JASCO 在生成质量方面与评估基线相当,同时允许对生成的音乐进行更好、更灵活的控制。

PRISM数据集

从多元化的人群中获取反馈对于提高 LLM 水平至关重要,但研究界对反馈过程的方法、领域和目标一直存在疑问。我们与外部合作伙伴合作解决这些问题,支持发布 PRISM 数据集,该数据集映射了来自 75 个国家/地区的 1,500 名多元化参与者的社会人口统计数据和偏好。该数据集将每个人的偏好和细粒度反馈映射到与 21 位不同 LLM 的 8,011 次实时对话中。

Meta 为我们的外部合作伙伴编制 PRISM 数据集提供了建议,重点关注以主观和多元文化观点为中心的对话,这些对话可能存在人际和跨文化分歧。我们的论文通过对话多样性、偏好多样性和福利结果三个案例研究证明了 PRISM 的实用性,表明哪些人设定了一致规范很重要。虽然我们希望这将成为社区资源,但我们也希望它能够激发人们更广泛地参与人工智能开发,并促进更具包容性的技术设计方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/31037.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI写论文网站,提升论文写作效率

学术研究与论文写作是一个衡量学者专业水平的重要标准。但是,论文写作过程中繁琐的文献检索、资料整理、数据分析等工作往往耗时费力。幸运的是,随着人工智能技术的发展,一系列AI写论文网站应运而生,它们极大地提升了我们论文写作…

代码随想录刷题复习day01

day01 数组-二分查找 class Solution {public int search(int[] nums, int target) {// 左闭右闭int left 0;int right nums.length - 1;int mid 0;while (right > left) {mid left (right - left) / 2;if (nums[mid] > target)right mid - 1;else if (nums[mid]…

ATFX汇市:英央行6月利率决议来袭,大概率按兵不动

ATFX汇市:昨日英国统计局刚公布5月CPI年率数据,今日英国央行就要公布利率决议结果,两项重磅数据同一周出现,GBPUSD或迎来高波动期。今日19:00,英国央行将公布6月利率决议结果,市场普遍预期其将维持5.25%的基…

双网卡设置路由网络不通原因之一:静态ip设置失败

1.主要现象: 外网通,内网不通 外网IP设置 内网IP设置 路由表设置 内网不通 2.主要原因:在适配器中设置的内网静态IP没有成功 设置静态IP失败 在命令行使用ipconfig命令看到内网适配器的静态IP为192.168.0.55,并不是我们设置的1…

【Esp32连接微信小程序蓝牙】附Arduino源码《 返回10007 相同特征id冲突问题》

前言 最近接了一个外包,发现了esp32连接小程序会有很多bug,所以接下来会慢慢更新解决方案,还是需要多接触项目才能进步呀兄弟们! 附上uuid的生成链接: // See the following for generating UUIDs: // https://www.uu…

adb 查看哪些应用是双开的

adb shell pm list users 得到 这 里有 user 0 ,11,999 其中0是系统默认的,11是平行空间的,999是双开用户 pm list packages --user 999 -3 得到了999用户安装第三方应用的包名 pm list packages --user 11 -3 得到了隐私空间用户安装第三方应用的…

Linux源码阅读笔记02-进程原理及系统调用

进程和进程的生命周期 进程:指计算机中已运行的程序。进程本身不是基本的运行单位,而是线程的容器。程序本身不是基本的运行单位,而是线程的容器。程序是指令、数据和组织形式的描述,进程才是程序的真正运行实例。Linux内核把进程…

优思学院|IT行业学习六西格玛的价值

提到六西格玛(Six Sigma),很多人可能首先想到的是制造业。六西格玛确实在制造业中有着广泛的应用和显著的效果,如提高产品质量、降低缺陷率、减少浪费等。那么,六西格玛在信息技术(IT)行业是否同…

医学图像预处理之z分数归一化

在医学图像处理中,Z分数标准化(Z-score normalization)是一种常用的数据标准化方法,其目的是将数据集中的每个图像像素值转换为具有均值为0和标准差为1的标准化值。这种标准化方法有助于改善图像的质量,便于后续图像处…

Window使用Hyper-V进行显卡直通

一、环境配置 处理器 Intel Xeon CPU E5-2680 v3 @ 2.50GHz 2.50 GHz 机带 RAM 64.0 GB 二、安装Hyper-V 控制面板–>程序和功能->启用或关闭winodws功能 三、打开Hyper-V安装windows 安装windows略过,记住(禁用检查点) 四、在本机Winows上以及管理员打开Powe…

山东华素制药有限公司:素心做药,感恩回报

在山东威海这片美丽的土地上,有一颗璀璨的明珠——山东华素制药有限公司。自2013年成立以来,这家企业以其深厚的制药底蕴、卓越的研发实力和坚定的社会责任,赢得了社会各界的广泛赞誉。它不仅是化学药品制剂制造的佼佼者,更是“素心做药,感恩回报”的典范。 一、素心做药,品质为…

MySQL快速安装(mysql8.0.30区别之前yum安装)

目录 一.初始化环境并解压 二.创建程序用户管理 三.修改mysql目录和配置文件的权限 四.修改配置文件 五.设置环境变量,申明/宣告mysql命令便于系统识别 六.初始化数据库 七.设置系统识别,进行操作 八.初始化数据库密码 九.用户并设置密码 十.赋…

18 Shell编程规范与变量

目录 18.1 Shell脚本概述 18.1.1 Shell的作用 18.1.2 编写第一个Shell脚本 18.1.3 重定向与管道操作 18.2 Shell变量的作用、类型 18.2.1 自定义变量 18.2.2 特殊的Shell变量 18.1 Shell脚本概述 可以批量处理、自动化地完成一系列维护任务,大大减轻管理员的负担。…

[leetcode hot 150]第十五题,三数之和

题目: 给你一个整数数组 nums ,判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i ! j、i ! k 且 j ! k ,同时还满足 nums[i] nums[j] nums[k] 0 。请 你返回所有和为 0 且不重复的三元组。 注意:答案中不可以包含重复…

电脑怎么恢复出厂设置?系统还原怎么操作?就看这5个方法!

电脑怎么恢复出厂设置?如果您的电脑出现问题,在电脑上恢复出厂重置非常有用。它基本上可以重置电脑,使其恢复到下线时的状态,给你一个全新的开始。众所周知,我们使用电脑的时间越长,电脑上的文件和程序就会…

Vue3 + Element-plus + TS —— 动态表格自由编辑

前期回顾 《 穿越时空的代码、在回首:Evil.js两年后的全新解读 》-CSDN博客 Vue3 TS Element-Plus 封装Tree组件 《亲测可用》_ https://blog.csdn.net/m0_57904695/article/details/131664157?spm1001.2014.3001.5501 态表格 自由编辑 目录 ♻️ 效果图…

AtomicInteger原理和CAS与Synchronized(juc编程)

AtomicInteger原理 4.6.1 原理介绍 AtomicInteger的本质:自旋锁 CAS算法 CAS的全成是: Compare And Swap(比较再交换); 是现代CPU广泛支持的一种对内存中的共享数据进行操作的一种特殊指令。CAS可以将read-modify-write转换为原子操作,这…

关于椭圆的方程(有Python画的动图)

关于椭圆的方程(有Python画的动图) flyfish 几何定义 椭圆是平面上所有到两个固定点(焦点)的距离之和为常数的点的集合。这两个固定点叫做焦点。 解析几何描述 设椭圆的两个焦点为 F 1 F_1 F1​ 和 F 2 F_2 F2​&#xff…

【高等数学】傅里叶级数

最近刷了会抖音,看到一个非常有趣的现象:傅里叶级数,今天挑了几个视频来供大家学习。 1.傅里叶级数概念 【小崔说数】傅里叶级数专题https://www.bilibili.com/video/BV1Uq4y1q7xk?t117.4 2.傅里叶级数动画 【谜之舒适】12分钟的傅立叶级…

【docker】Dockerfile制作基础镜像 python 底层镜像制作 | 打包所有的requirement依赖

一、Dockerfile思想 我们正常的对一个项目进行打包 docker image 通常是在CI工具编译时进行对依赖的安装,比如golang的go get、python的pip install、node的npm install 等等 好处:我们更新了依赖可以动态的再编译时进行一个对依赖的更新 坏处&#xf…