文章目录
- 1. 英伟达开源Nemotron-4 340B
- 2. 哔哩哔哩开源轻量级模型 Index-1.9B
- 3. 微软开源混合模型 Samba
- 4. 谷歌开源 RecurrentGemma-9B,性能与Gemma相同
- 5. Stable Diffusion 3 Medium:“最强文生图开源 AI 模型”
1. 英伟达开源Nemotron-4 340B
当地时间6月14日,英伟达开源 Nemotron-4 340B 系列模型,包括三个模型:基础模型Nemotron-4-340B-Base,指令模型Nemotron-4-340B-Instruct,以及奖励模型Nemotron-4-340B-Reward,具有3400亿参数,在NVIDIA开放模型许可协议下开放访问,允许分发、修改和使用这些模型及其输出。
Nemotron-4 340B 使用合成数据,性能超越 Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2,可与 GPT-4 竞争。
Nemotron-4 340B 采用了 Transformer 架构,并引入了旋转位置嵌入(RoPE)优化算法和MOE(Mixture of Experts)架构。这些技术的结合使得 Nemotron-4 340B 在常识推理任务以及BBH等主流基准上实现了行业最高的准确率,并且在MMLU代码基准上也具备较高竞争力。
目前 Nemotron-4 340B 的模型以及技术报告已经发布:
模型下载:https://huggingface.co/nvidia/Nemotron-4-340B-Base
代码下载:https://github.com/NVIDIA/Megatron-LM
技术报告:https://research.nvidia.com/publication/2024-06_nemotron-4-340b
Nemotron-4-340B-Instruct 的一个重要特性是用于对齐训练的数据集包含98%的合成数据,所以可以用于合成数据。配合 Nemotron-4-340B-Reward 模型,就可以用于生成训练小模型的数据。
2. 哔哩哔哩开源轻量级模型 Index-1.9B
bilibili开源轻量级模型Index-1.9B,具有19亿参数,在2.8T中英文为主的语料上预训练,该系列模型在多个评测基准上与同级别模型相媲美。Index-1.9B系列包括基座模型、对照组模型、对话模型和角色扮演模型等。
图:bilibili轻量级模型Index-1.9B基本性能
本次开源的 Index-1.9B 系列包含以下模型:
- Index-1.9B base : 基座模型,具有 19亿 非词嵌入参数量,在 2.8T 中英文为主的语料上预训练,多个评测基准上与同级别模型比处于领先。
- Index-1.9B pure : 基座模型的对照组,与base具有相同的参数和训练策略,不同之处在于团队严格过滤了该版本语料中所有指令相关的数据,以此来验证指令对benchmark的影响。
- Index-1.9B chat : 基于 Index-1.9B base 通过SFT和DPO对齐后的对话模型,团队发现由于预训练中引入了较多定向清洗对话类语料,聊天的趣味性明显更强。
- Index-1.9B character : 角色扮演模型,在SFT和DPO的基础上引入了RAG来实现fewshots角色扮演定制。
目前,Index-1.9B 已在 GitHub 和 HuggingFace 上开源。
查看详细技术报告:https://github.com/bilibili/Index-1.9B
HuggingFace地址:https://huggingface.co/IndexTeam
图:bilibili轻量级模型Index-1.9B输出示例
3. 微软开源混合模型 Samba
在当今人工智能领域,语言模型的上下文限制一直是挑战之一。然而,Samba 打破了这一局限性,引领我们进入无界限上下文语言处理的新时代。
微软开源混合模型 Samba,具有无限的上下文长度。它的架构非常简单:Samba = Mamba + MLP + 滑动窗口注意力 + MLP层级堆叠。
最大的模型 Samba-3.8B 在 Phi3 数据集上训练了3.2万亿个token,大幅超越 Phi3-mini 在主要基准测试(如MMLU, GSM8K和HumanEval)上的表现。
Samba 还能够通过最小的指令调整实现完美的长上下文检索能力,同时保持其对序列长度的线性复杂度。这种能力使得 Samba-3.8B-instruct 在下游任务如长上下文摘要上表现出色。
项目地址:https://github.com/microsoft/Samba/
4. 谷歌开源 RecurrentGemma-9B,性能与Gemma相同
谷歌开源 RecurrentGemma-9B,包括 Base (9B) 和 Instruct (9B-IT) 版本,性能与 Gemma 相同,但延迟降低了 25% 以上,每秒的 token 数量提高了 6-7 倍。RecurrentGemma 是谷歌开源的全新架构模型,采用了谷歌自研的Griffin架构,具备高效的长序列处理能力、高推理效率、出色的下游任务表现 ,以及有效管理训练成本。
与 Gemma 一样,RecurrentGemma 非常适合各种文本生成任务,包括问答、摘要和推理。由于其新颖的架构,RecurrentGemma 所需的内存比 Gemma 更少,并且在生成长序列时可以实现更快的推理。
项目地址:https://huggingface.co/google/recurrentgemma-9b
5. Stable Diffusion 3 Medium:“最强文生图开源 AI 模型”
6 月 13 日,Stability AI 发布了 Stable Diffusion 3 Medium(下文简称 SD3 Medium),官方声称是“迄今为止最先进的开源模型”,其性能甚至超过了 Midjourney 6。
SD3 Medium 具有20亿参数,大小适中,它非常适合在消费级个人电脑和笔记本电脑上运行,同时也适用于企业级GPU。
SD3 Medium 首先是在大约10亿图文对上预训练,然后采用高质量数据进行微调,高质量数据包括30M专注于特定视觉内容和风格的高质量审美图像,以及3M偏好数据图像。
SD3 Medium 的主要优势有:
- 照片级真实感:克服了手部和面部常见的伪影问题,无需复杂的工作流程即可提供高质量的图像。
- 提示词遵循性:理解涉及空间关系、构图元素、动作和风格的复杂提示。
- 文字能力:借助Diffusion Transformer架构,在生成无伪影和拼写错误的文本方面取得了前所未有的成果。
- 资源高效:由于其低VRAM占用,非常适合在标准消费级GPU上运行,且不降低性能。
- 微调:能够从小数据集中吸收细微的细节,使其非常适合定制化。
Stability AI 在非商业许可下提供 SD3 Medium,供免费使用。
Hugging Face 项目地址:https://huggingface.co/stabilityai/stable-diffusion-3-medium
参考:
https://www.bilibili.com/read/cv35386797/
https://github.com/microsoft/Samba/
https://research.nvidia.com/publication/2024-06_nemotron-4-340b
欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。