【MetaAI】2023年MetaAI发布的开源模型和工具

MetaAI开源模型和工具

  • MetaAI
    • Llama
    • Segment Anything
    • DINOv2
    • ImageBind
    • MMS
    • Lima
    • Voicebox
    • MusicGen
    • Llama 2
    • AudioCraft
    • SeamlessM4T

MetaAI

Meta 首席执行官扎克伯格表示,与其他研究者分享 Meta 公司开发的模型可以帮助该公司促进创新、发现安全漏洞和降低成本。他今年 4 月对投资者说:「对我们来说,如果行业对我们正在使用的基本工具进行标准化,那么我们就可以从他人的改进中受益。」

Llama

2023.02.24
LLaMA:开放高效的基础语言模型
这是一个基础语言模型的集合,参数范围从 7B 到 65B。我们在数万亿个代币上训练我们的模型,并表明可以专门使用公开可用的数据集来训练最先进的模型,而无需诉诸专有的和无法访问的数据集。特别是,LLaMA-13B 在大多数基准测试中都优于 GPT-3 (175B),而 LLaMA-65B 可以与最好的模型 Chinchilla-70B 和 PaLM-540B 竞争。
Meta开源的LLaMa到底好不好用?最全测评结果来了-夕小瑶科技说
开源MMS模型可识别1100+语言-新智元

Segment Anything

2023.04.05
Segment Anything (SAM) 是一种通用分割模型
https://arxiv.org/abs/2304.02643
【segment-anything】- Meta 开源万物可分割 AI 模型,之前写的一篇博客
在这里插入图片描述

DINOv2

2023.04.18
具有自我监督学习功能的最先进的计算机视觉模型

  • Meta AI 构建了 DINOv2,这是一种训练高性能计算机视觉模型的新方法。
  • DINOv2 提供强大的性能并且不需要微调。这使得它适合用作许多不同计算机视觉任务的backbone。
  • 因为它使用自我监督,DINOv2 可以从任何图像集合中学习。它还可以学习当前标准方法无法学习的特征,例如深度估计。
  • 我们正在开源我们的模型并分享交互式演示。
    在这里插入图片描述

ImageBind

2023.05.09
文章地址
GitHub仓库
可让模型跨 6 种不同的模态(图像、文本、音频、深度、热能和 IMU 数据)进行交流! 基于该项目,开发者可以「开箱即用」实现包括跨模态检索、使用算术合成模态、跨模态检测和生成等各类新兴应用。
ImageBind是一种多模态AI模型,能够将文本、音频、视觉、热量(红外),还有IMU数据,嵌入到一个向量空间中。
从演示看,可以做到图片转音频、音频转图像、文本转图像和音频、图像和音频转图像、音频配合其他模型生成图像。
在这里插入图片描述

在这里插入图片描述

MMS

2023.05.23
Github仓库地址
开源MMS模型可识别1100+语言-新智元
Massively Multilingual Speech:大规模多语言语音
使用wav2vec 2.0的自监督学习,MMS将语音技术扩展到1100到4000种语言。

  • 从文本到语音
  • 以及语音到文本的互转
  • 可以讲 1100 种语言,听懂 4000 种语言
    在这之前最流行的模型应该是 Whisper
    Meta 在文档中提到比 Whisper 的错误率低了 50%

Lima

2023.05.23
论文地址
没有RLHF,一样媲美GPT-4、Bard,Meta发布650亿参数语言模型LIMA-机器之心

Lima是llama的一个改进。感觉LIMA的思路就是够强的预训练,加几个你任务的例子SFT,就可以激活你任务上的效果

LIMA是Meta的新型大型语言模型(LLM),它基于65B的LLAMA,只在1000个样本上进行了训练,它的表现和当前最先进的LLM一样好。LLM不需要太多的示例,大型模型也不需要真的"很大"。

LLaMa的微调大模型LIMA,号称只用了1000个精心策划的提示和反馈进行微调,就达到了非常好的效果。

我们通过训练LIMA,一个参数为650亿的LLaMa语言模型,仅使用标准的监督学习损失对1000个精心策划的提示和反馈进行微调,无需任何强化学习或人类偏好模型,来衡量这两个阶段的相对重要性。

LIMA表现出了极强的性能,能从训练数据中只有少量的样本学习特定的响应格式,包括从规划旅行行程到推测历史替代情景的复杂查询。

此外,该模型往往能很好地推广到未出现在训练数据中的新任务。在一个受控的人类研究中,
43%的情况下,LIMA的反馈与GPT-4相当或被严格优先选择
与Bard比较时,这个比例高达58%,与接受人类反馈训练的DaVinci003比较时,这个比例达到65%。

综合来看,这些结果强烈表明,大型语言模型中几乎所有的知识都是在预训练阶段学习的,只需要有限的指令调整数据就可以教授模型产生高质量的输出。

Voicebox

2023.06.16
文章地址

Meta AI开发出一种各方面都表现非常先进的语音生成AI模型:Voicebox
与别的生成语音的 AI 需要使用精心准备的训练数据对每项任务进行特定训练不同。
Voicebox使用一种新方法来仅从原始音频和随附的转录中学习。这种方法提高了模型的灵活性,使其能够更好地适应各种任务

MusicGen

2023.06.19
官方网站
体验地址
演示地址

简单可控的音乐生成模型

MusicGen是一个单阶自回归Transformer模型,它是通过一个在32kHz EnCodec tokenizer上进行训练,具有4个以50Hz采样的码本。

  • 用于条件音乐生成的单语言模型 (LM)
  • 使用压缩音乐令牌运行,无需多个模型
  • 在文本或旋律的引导下生成高质量的样本
  • 广泛的评估表明 MusicGen 优于基线模型
  • 研究强调了 MusicGen 中每个组件的重要性

Llama 2

2023.07.18
文章地址

Meta 发布免费可商用版本 Llama 2,大模型格局再次发生巨变

  1. 包含3个规模:LLAMB 700亿参数、LLAMM 130亿参数、LLAMS 70亿参数。采用Transformer架构。
  2. 相比Llama 1,训练数据增加40%,模型上下文长度加倍。性能显著提升,几乎可与专有模型GPT-3.5匹敌。
  3. Llama 2-Chat是对话优化版本,通过监督微调和RLHF方法,在单轮和多轮对话的自然性、连贯性上胜过其他开源模型,可媲美ChatGPT。
  4. 强化了模型安全性,使用各种技术减少有害输出,安全性评估结果优于其他开源模型

AudioCraft

2023.08.02
文章地址

AudioCraft 是一个简单框架,在对原始音频信号(而不是 MIDI 或钢琴卷轴)进行训练后,根据基于文本的用户输入生成高质量、逼真的音频和音乐。

AudioCraft 包含三个模型:MusicGen、AudioGen和EnCodec。MusicGen 使用 Meta 拥有且专门授权的音乐进行训练,根据基于文本的用户输入生成音乐,而 AudioGen 使用公共音效进行训练,根据基于文本的用户输入生成音频。今天,我们很高兴发布 EnCodec 解码器的改进版本,它可以用更少的音损生成更高质量的音乐;我们预先训练的 AudioGen 模型,可让您生成环境声音和声音效果,例如狗叫声、汽车喇叭声或木地板上的脚步声;以及所有 AudioCraft 模型权重和代码。这些模型可用于研究目的并加深人们对该技术的理解。
在这里插入图片描述

SeamlessM4T

2023.08.22
文章地址

这是一种基础的多语言和多任务模型,可以无缝翻译和转录语音和文本。SeamlessM4T 支持:

  • 自动语音识别近百种语言
  • 近 100 种输入和输出语言的语音到文本翻译
  • 语音翻译,支持近100种输入语言和35种(+英语)输出语言
  • 近 100 种语言的文本到文本翻译
  • 文本转语音翻译,支持近100种输入语言和35种(+英语)输出语言
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/63701.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

概念解析 | 量子机器学习:将量子力学与人工智能的奇妙融合

注1:本文系“概念解析”系列之一,致力于简洁清晰地解释、辨析复杂而专业的概念。本次辨析的概念是:量子机器学习。 量子机器学习:将量子力学与人工智能的奇妙融合 量子增强机器学习:量子经典混合卷积神经网络 量子机器学习是量子计算和机器学习的结合,它利用量子力学的特…

Opencv-C++笔记 (18) : 轮廓和凸包

文章目录 一、轮廓findContours发现轮廓drawContours绘制轮廓代码 二.几何及特性概括——凸包(Convex Hull)凸包概念凸包扫描算法介绍——Graham扫描算法 相关API介绍程序示例轮廓集合及特性性概括——轮廓周围绘制矩形框和圆形相关理论介绍轮廓周围绘制矩形 -API绘制步骤程序实…

Python数据分析案例30——中国高票房电影分析(爬虫获取数据及分析可视化全流程)

案例背景 最近总看到《消失的她》票房多少多少,《孤注一掷》票房又破了多少多少..... 于是我就想自己爬虫一下获取中国高票房的电影数据,然后分析一下。 数据来源于淘票票:影片总票房排行榜 (maoyan.com) 爬它就行。 代码实现 首先爬虫获…

<AMBA总线篇> AXI总线协议介绍

目录 01 AXI协议简介 AXI协议特性 AXI协议传输特性 02 AXI协议架构 AXI协议架构 write transaction(写传输) read tramsaction(读传输) Interface and interconnect 典型的AXI系统拓扑 03 文章总结 大家好,这里是程序员杰克。一名平平无奇的嵌入式软件工程…

Python 接口测试之Excel表格数据操作方法封装

引言 我们在做接口测试,经常会用到excel去管理测试数据,对Excel的操作比较频繁,那么使用python如何操作Excel文件的读与写呢?由于之前讲的都是大的框框,没有讲这么小的模块使用,现在就化整为0的讲解。 读…

基于OpenCV+LPR模型端对端智能车牌识别——深度学习和目标检测算法应用(含Python+Andriod全部工程源码)+CCPD数据集

目录 前言总体设计系统整体结构图系统流程图 运行环境Python 环境OpenCV环境Android环境1. 开发软件和开发包2. JDK设置3. NDK设置 模块实现1. 数据预处理2. 模型训练1)训练级联分类器2)训练无分割车牌字符识别模型 3. APP构建1)导入OpenCV库…

数据结构-第一期——数组(Python)

目录 00、前言: 01、一维数组 一维数组的定义和初始化 一维变长数组 一维正向遍历 一维反向遍历 一维数组的区间操作 竞赛小技巧:不用从a[0]开始,从a[1]开始 蓝桥杯真题练习1 读入一维数组 例题一 例题二​ 例题三 实战训…

在iPhone 15发布之前,iPhone在智能手机出货量上占据主导地位,这对安卓来说是个坏消息

可以说这是一记重拳,但似乎没有一个有价值的竞争者能与苹果今年迄今为止的智能手机出货量相媲美。 事实上,根据Omdia智能手机型号市场跟踪机构收集的数据,苹果的iPhone占据了前四名。位居榜首的是iPhone 14 Pro Max,2023年上半年…

详细教程:Stegsolve的下载,jdk的下载、安装以及环境的配置

最近在学习隐写术,下载stegsolve 以及使用stegsolve倒腾了很久,避免朋友们和我一样倒腾了很久,希望此文可以帮到刚在学习隐写的朋友们(win7下使用stegsolve) 文章目录 一、下载stegsolve链接二、jdk的下载三、jdk的安装四、配置环境变量五、检…

Redis——》Pipeline

推荐链接: 总结——》【Java】 总结——》【Mysql】 总结——》【Redis】 总结——》【Kafka】 总结——》【Spring】 总结——》【SpringBoot】 总结——》【MyBatis、MyBatis-Plus】 总结——》【Linux】 总结——》【MongoD…

60倍!5G+卫星服务仅中国电信有,中国移动的霸主地位或被撼动

近期国内一家手机企业发布了第三代卫星手机,并且由于再次支持5G而获得高度关注,成为近期手机市场的热点,不过笔者查找了相关资料后却发现,可以支持5G卫星通信服务的仅有中国电信,如此中国移动的霸主地位将可能被撼动。…

Java 大厂八股文面试专题-设计模式 工厂方法模式、策略模式、责任链模式

面试专题-设计模式 前言 在平时的开发中,涉及到设计模式的有两块内容,第一个是我们平时使用的框架(比如spring、mybatis等),第二个是我们自己开发业务使用的设计模式。 面试官一般比较关心的是你在开发过程中&#xff…

15-mongodb

一、 MongoDB 简介 1 什么是 MongoDB MongoDB 是一个基于分布式文件存储的数据库。由 C语言编写。在为 WEB 应用提供可扩展的高性能数据存储解决方案。 MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系…

【力扣每日一题】2023.9.1 买钢笔和铅笔的方案数

目录 题目: 示例: 分析: 代码: 题目: 示例: 分析: 题目给我们三个数,一个是我们拥有的钱,一个是钢笔的价格,另一个是铅笔的价格。 问我们一共有几种买笔…

【广州华锐互动】VR全景工厂虚拟导览,虚拟现实技术提升企业数字化信息管理水平

随着工业4.0的到来,VR工厂全景制作成为了越来越多工业企业的选择。传统的工厂管理方式往往存在诸多问题,如信息不对称、安全隐患等。为了解决这些问题,VR工厂全景制作应运而生,它通过结合虚拟现实现实技术和数据采集技术&#xff…

【React学习】—React中的事件绑定(八)

【React学习】—React中的事件绑定&#xff08;八&#xff09; 一、原生JS <body><button id"btn1">按钮1</button><button id"btn2">按钮2</button><button onclick"demo()">按钮3</button><scr…

Java设计模式-状态模式

1.概述 定义&#xff1a; 对有状态的对象&#xff0c;把复杂的“判断逻辑”提取到不同的状态对象中&#xff0c;允许状态对象在其内部状态发生改变时改变其行为。 【例】通过按钮来控制一个电梯的状态&#xff0c;一个电梯有开门状态&#xff0c;关门状态&#xff0c;停止状…

ubuntu tensorrt 安装

官网&#xff0c;非常详细&#xff0c;比大部分博客写的都好&#xff0c;强烈推荐 具体的点进链接

CSS 实现平面圆点绕椭圆动画

前言 &#x1f44f;CSS实现平面圆点绕椭圆动画,速速来Get吧~ &#x1f947;文末分享源代码。记得点赞关注收藏&#xff01; 1.实现效果 2.实现原理 transform-style&#xff1a;CSS 属性 transform-style 设置元素的子元素是位于 3D 空间中还是平面中。如果选择平面&#xf…

Spring补充

一.Spring JDB 配置两个jar包 <!-- spring-jdbc --> <dependency> <groupId>org.springframework</groupId> <artifactId>spring-jdbc</artifactId> <version>5.2.2.RELEASE</version> </dependency> <!-- 阿里数据…