最新开源:英伟达Nemotron-4 340B,哔哩哔哩Index-1.9B,谷歌RecurrentGemma-9B...

文章目录

    • 1. 英伟达开源Nemotron-4 340B
    • 2. 哔哩哔哩开源轻量级模型 Index-1.9B
    • 3. 微软开源混合模型 Samba
    • 4. 谷歌开源 RecurrentGemma-9B,性能与Gemma相同
    • 5. Stable Diffusion 3 Medium:“最强文生图开源 AI 模型”

1. 英伟达开源Nemotron-4 340B

当地时间6月14日,英伟达开源 Nemotron-4 340B 系列模型,包括三个模型:基础模型Nemotron-4-340B-Base,指令模型Nemotron-4-340B-Instruct,以及奖励模型Nemotron-4-340B-Reward,具有3400亿参数,在NVIDIA开放模型许可协议下开放访问,允许分发、修改和使用这些模型及其输出。

Nemotron-4 340B 使用合成数据,性能超越 Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2,可与 GPT-4 竞争。

在这里插入图片描述

Nemotron-4 340B 采用了 Transformer 架构,并引入了旋转位置嵌入(RoPE)优化算法和MOE(Mixture of Experts)架构。这些技术的结合使得 Nemotron-4 340B 在常识推理任务以及BBH等主流基准上实现了行业最高的准确率,并且在MMLU代码基准上也具备较高竞争力。

在这里插入图片描述

目前 Nemotron-4 340B 的模型以及技术报告已经发布:
模型下载:https://huggingface.co/nvidia/Nemotron-4-340B-Base
代码下载:https://github.com/NVIDIA/Megatron-LM
技术报告:https://research.nvidia.com/publication/2024-06_nemotron-4-340b

Nemotron-4-340B-Instruct 的一个重要特性是用于对齐训练的数据集包含98%的合成数据,所以可以用于合成数据。配合 Nemotron-4-340B-Reward 模型,就可以用于生成训练小模型的数据。

在这里插入图片描述

2. 哔哩哔哩开源轻量级模型 Index-1.9B

bilibili开源轻量级模型Index-1.9B,具有19亿参数,在2.8T中英文为主的语料上预训练,该系列模型在多个评测基准上与同级别模型相媲美。Index-1.9B系列包括基座模型、对照组模型、对话模型和角色扮演模型等。

在这里插入图片描述

图:bilibili轻量级模型Index-1.9B基本性能

本次开源的 Index-1.9B 系列包含以下模型:

  • Index-1.9B base : 基座模型,具有 19亿 非词嵌入参数量,在 2.8T 中英文为主的语料上预训练,多个评测基准上与同级别模型比处于领先。
  • Index-1.9B pure : 基座模型的对照组,与base具有相同的参数和训练策略,不同之处在于团队严格过滤了该版本语料中所有指令相关的数据,以此来验证指令对benchmark的影响。
  • Index-1.9B chat : 基于 Index-1.9B base 通过SFT和DPO对齐后的对话模型,团队发现由于预训练中引入了较多定向清洗对话类语料,聊天的趣味性明显更强。
  • Index-1.9B character : 角色扮演模型,在SFT和DPO的基础上引入了RAG来实现fewshots角色扮演定制。

目前,Index-1.9B 已在 GitHub 和 HuggingFace 上开源。

查看详细技术报告:https://github.com/bilibili/Index-1.9B
HuggingFace地址:https://huggingface.co/IndexTeam

在这里插入图片描述

图:bilibili轻量级模型Index-1.9B输出示例

3. 微软开源混合模型 Samba

在当今人工智能领域,语言模型的上下文限制一直是挑战之一。然而,Samba 打破了这一局限性,引领我们进入无界限上下文语言处理的新时代。

微软开源混合模型 Samba,具有无限的上下文长度。它的架构非常简单:Samba = Mamba + MLP + 滑动窗口注意力 + MLP层级堆叠。

最大的模型 Samba-3.8B 在 Phi3 数据集上训练了3.2万亿个token,大幅超越 Phi3-mini 在主要基准测试(如MMLU, GSM8K和HumanEval)上的表现。

在这里插入图片描述

Samba 还能够通过最小的指令调整实现完美的长上下文检索能力,同时保持其对序列长度的线性复杂度。这种能力使得 Samba-3.8B-instruct 在下游任务如长上下文摘要上表现出色。

在这里插入图片描述
在这里插入图片描述

项目地址:https://github.com/microsoft/Samba/

4. 谷歌开源 RecurrentGemma-9B,性能与Gemma相同

谷歌开源 RecurrentGemma-9B,包括 Base (9B) 和 Instruct (9B-IT) 版本,性能与 Gemma 相同,但延迟降低了 25% 以上,每秒的 token 数量提高了 6-7 倍。RecurrentGemma 是谷歌开源的全新架构模型,采用了谷歌自研的Griffin架构,具备高效的长序列处理能力、高推理效率、出色的下游任务表现 ,以及有效管理训练成本。

与 Gemma 一样,RecurrentGemma 非常适合各种文本生成任务,包括问答、摘要和推理。由于其新颖的架构,RecurrentGemma 所需的内存比 Gemma 更少,并且在生成长序列时可以实现更快的推理。

项目地址:https://huggingface.co/google/recurrentgemma-9b

5. Stable Diffusion 3 Medium:“最强文生图开源 AI 模型”

6 月 13 日,Stability AI 发布了 Stable Diffusion 3 Medium(下文简称 SD3 Medium),官方声称是“迄今为止最先进的开源模型”,其性能甚至超过了 Midjourney 6。

在这里插入图片描述

SD3 Medium 具有20亿参数,大小适中,它非常适合在消费级个人电脑和笔记本电脑上运行,同时也适用于企业级GPU。

SD3 Medium 首先是在大约10亿图文对上预训练,然后采用高质量数据进行微调,高质量数据包括30M专注于特定视觉内容和风格的高质量审美图像,以及3M偏好数据图像。

SD3 Medium 的主要优势有:

  • 照片级真实感:克服了手部和面部常见的伪影问题,无需复杂的工作流程即可提供高质量的图像。
  • 提示词遵循性:理解涉及空间关系、构图元素、动作和风格的复杂提示。
  • 文字能力:借助Diffusion Transformer架构,在生成无伪影和拼写错误的文本方面取得了前所未有的成果。
  • 资源高效:由于其低VRAM占用,非常适合在标准消费级GPU上运行,且不降低性能。
  • 微调:能够从小数据集中吸收细微的细节,使其非常适合定制化。

Stability AI 在非商业许可下提供 SD3 Medium,供免费使用。

Hugging Face 项目地址:https://huggingface.co/stabilityai/stable-diffusion-3-medium

参考:
https://www.bilibili.com/read/cv35386797/
https://github.com/microsoft/Samba/
https://research.nvidia.com/publication/2024-06_nemotron-4-340b

欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/29702.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++初学者指南第一步---6.枚举和枚举类

C初学者指南第一步—6.枚举和枚举类 文章目录 C初学者指南第一步---6.枚举和枚举类1.作用域的枚举(enum class类型)(C11)2.无作用域的枚举(enum类型)3.枚举类的基础类型4.自定义枚举类映射5.和基础类型的互相转换 1.作用域的枚举(enum class类…

Python武器库开发-武器库篇之链接提取器(六十)

Python武器库开发-武器库篇之链接提取器(六十) 链接提取器介绍 链接提取器(Link Extractor)是一种用于从网页中提取链接的工具。它可以从网页的源代码中识别出所有的链接,并将这些链接提取出来。链接提取器可以用于各…

Python第二语言(十二、SQL入门和实战)

目录 1. Python中使用MySQL 1.1 pymysql第三方库使用MySQL 1.2 连接MySQL 1.3 操作数据库,创建表 1.4 执行查询数据库语句 2. python中MySQL的插入语句 2.1 commit提交 2.2 自动提交 3. pymysql案例 3.1 数据内容 3.2 DDL定义 3.3 实现步骤 3.4 文件操…

用python克隆了前男友的声音

声音克隆开源项目推荐:MockingBird 项目简介 MockingBird 是一个由开源社区开发的声音克隆项目,托管在 GitHub 上。该项目旨在通过深度学习技术实现高质量的声音克隆,使用户能够合成任意人的声音,并生成自然、流畅的语音输出。M…

【2024最新华为OD-C/D卷试题汇总】[支持在线评测] 单词大师(100分) - 三语言AC题解(Python/Java/Cpp)

🍭 大家好这里是清隆学长 ,一枚热爱算法的程序员 ✨ 本系列打算持续跟新华为OD-C/D卷的三语言AC题解 💻 ACM银牌🥈| 多次AK大厂笔试 | 编程一对一辅导 👏 感谢大家的订阅➕ 和 喜欢💗 &#x1f…

010-基于Sklearn的机器学习入门:聚类(上)

本节及后续章节将介绍深度学习中的几种聚类算法,所选方法都在Sklearn库中聚类模块有具体实现。本节为上篇,将介绍几种相对基础的聚类算法,包括K-均值算法和均值漂移算法。 目录 10.1 聚类概述 10.1.1 聚类的种类 10.1.2 Sklearn聚类子模…

搭建zookeeper、Kafka集群

搭建zookeeper、Kafka集群 1、绘制kafka的存储结构、副本机制2、搭建zookeeper集群3、搭建kafka集群4、使用kafka创建名为自己姓名汉语拼音的topic5、查看topic的分区和副本策略 1、绘制kafka的存储结构、副本机制 2、搭建zookeeper集群 实验环境准备: 3台服务器&…

npm install cnpm -g 报错4048

npm install cnpm -g 报错4048 设置淘宝镜像: 报错如下: 其他博主提供的方法都尝试了,比如管理员权限打开终端,删除.npmrc文件,清除缓存npm cache clean -f等都试了无效,最后怀疑是npm和cnpm版本不对应&…

JSP之原理剖析

什么是JSP: java Server Pages: java服务端页面,也和Servlet一样,用于动态Web技术? 最大特点: 写jsp就像在写HTML区别: HTML只给用户提供静态的数据JSP页面中可以嵌入Java代码,为用户提供动态数据 JSP原…

基于STM32和人工智能的智能四轴飞行器系统

目录 引言环境准备智能四轴飞行器系统基础代码实现:实现智能四轴飞行器系统 4.1 数据采集模块4.2 数据处理与分析4.3 控制系统4.4 用户界面与数据可视化应用场景:智能飞行器管理与优化问题解决方案与优化收尾与总结 1. 引言 随着无人机技术的发展&…

群晖NAS部署在线PS工具Potopea并实现浏览器远程访问处理图片

文章目录 前言1. 部署Photopea2. 运行Photopea3. 群晖安装Cpolar4. 配置公网地址5. 公网访问测试6. 固定公网地址 前言 本文主要介绍如何在群晖NAS本地部署Potopea在线图片PS编辑工具,并结合cpolar内网穿透实现公网环境远程访问本地部署的Potopea处理图片. Photop…

【CT】LeetCode手撕—103. 二叉树的锯齿形层序遍历

目录 题目1- 思路2- 实现⭐103. 二叉树的锯齿形层序遍历——题解思路 2- ACM实现 题目 原题连接:103. 二叉树的锯齿形层序遍历 1- 思路 二叉树的层序遍历,遇到奇数时,利用 Collections.reverse() 翻转即可 2- 实现 ⭐103. 二叉树的锯齿形层…

【第17章】Vue实战篇之注册界面

文章目录 前言一、搭建界面二、数据绑定1.定义响应数据2.绑定数据 三、数据校验1. 定义校验规则2. 表单校验3. 展示 四、注册接口调用1. user.js2. Login.vue 五、展示总结 前言 本章内容主要包含&#xff1a; 注册界面搭建数据绑定表单校验调用后端接口 一、搭建界面 <s…

Java23种设计模式(二)

1、单例模式 单例模式&#xff08;Singleton Pattern&#xff09;是 Java 中最简单的设计模式之一。这种类型的设计模式属于创建型模式&#xff0c;它提供了一种创建对象的最佳方式。 这种模式涉及到一个单一的类&#xff0c;该类负责创建自己的对象&#xff0c;同时确保只有…

电脑硬盘文件隐藏了怎么恢复数据?轻松上手不求人

在数字化时代&#xff0c;电脑硬盘中存储的数据对于个人和企业而言都至关重要。然而&#xff0c;有时我们可能会遇到一些意想不到的情况&#xff0c;比如硬盘中的文件突然消失了或者变成了隐藏状态。这种情况不仅让人感到困惑&#xff0c;还可能对日常工作和生活造成不小的影响…

【unity笔记】三、冰山碰撞变成碎块效果

一、模型准备 共需准备两个模型&#xff0c;一个原始模型&#xff0c;一个破碎后的模型。 破碎后的模型制作教程&#xff1a; 下载Blender 导入原始模型在添加偏好设置中添加Cell Fracture插件&#xff0c;调整模型碎裂效果。导出&#xff0c;保存到项目预制体文件夹。 二、…

胡说八道(24.6.17)——STM32以及通信杂谈

之前的文章中咱们谈到了STM32的时钟&#xff0c;今天我们来联系实际&#xff0c;来看看内部时钟下和外部时钟下的两种不同时钟的电平翻转。本次终于有硬件了&#xff0c;是最基础的STM32F103C8T6。 首先是&#xff0c;内部时钟的配置操作。 系统的内部时钟是72MHz&#xff0c;由…

【Windows系统】文件操作出现“文件访问被拒绝”弹窗问题

环境 系统&#xff1a;win10x64 版本&#xff1a;1709 问题 重命名系统文件夹文件&#xff0c;有时会出现【文件访问被拒绝】的弹窗&#xff0c;导致操作失败。 如何才能避免弹窗&#xff0c;成功操作&#xff1f; 解决方法 前提&#xff1a;实施以下解决&#xff0c;首先…

设置角色运动的动画

(1) 打开Assets-UnityTechnologies-Animation-Animators&#xff0c;Create-Animation-Controller,命名为JohnLemon (2) 打开JohnLemon&#xff0c;出现下图 (3) 依次将Assets-UnityTechnologies-Animation-Animation中的JohnIdle和JohnWalk拖放到Base Layer窗口中 (4) 右击Idl…

Sora不香了,Runway Gen-3震撼发布!AI电影时代真的要来了!(附与快手可灵对比测试)

文章首发于公众号&#xff1a;X小鹿AI副业 大家好&#xff0c;我是程序员X小鹿&#xff0c;前互联网大厂程序员&#xff0c;自由职业2年&#xff0c;也一名 AIGC 爱好者&#xff0c;持续分享更多前沿的「AI 工具」和「AI副业玩法」&#xff0c;欢迎一起交流~ AI 视频太卷了&…