小规模的LLMS

 对于小模型来说,训练目标已经改变。关键问题是,AI系统如何从更少的数据中学到更多

我们需要模型先变得更大,再变得更小,因为我们需要「巨兽」将数据重构、塑造为理想的合成形式,逐渐得到「完美的训练集」再喂给小模型

1、Huggingface:smollm

1.参数量:1.35亿、3.6亿和17亿

      SmolLM系列包括三个成员,它们分别拥有1.35亿、3.6亿和17亿参数量 SmolLM-1.7B占用的显存

  • bf16:3422.76 MB
  • int8:1812.14 MB
  • int4:1006.84 MB

2.数据集

 Smollm Corpus 数据集:

  • Cosmopedia v2: 由Mixtral 生成的包含38B tokens的合成教材和故事内容的

  • Python-Edu: Stack 上的教育性Python示例(4B tokens)

  • FineWeb-Edu (deduplicated): FineWeb 上的精选教育性网络内容(220B tokens

指令微调数据集:StarCoder2-Self-OSS-Instruct

dpo数据集:集中135M和1.7B模型使用的是HelpSteer数据集; 360M的模型,使用的是argilla/dpo-mix-7k;都只训练了一个epoch。

3.训练数据量:

SmolLM模型有三个不同尺寸,它们分别在不同量级的混合数据上训练得到:

  • 135M and 360M models, 在Smollm-Corpus数据集中选择了600B tokens的训练数据;

  • 1.7B model, 在Smollm-Corpus数据集中选择了1T的训练数据

  • Pretraining steps: 500k
  • Pretraining tokens: 1T
  • Precision: bfloat16

4.Hardware:GPUs: 64 H100

5.Training Framework: Nanotron

支持长度:这几款模型支持的长度都是2048(2K)个token(通过微调后,可以支持更长)

这个模型实测起来,除了官方例子,表现并不像说的那么好,感觉像个傻子一样 

体验地址:https://huggingface.co/spaces/HuggingFaceTB/SmolLM-360M-Instruct-WebGPU 

6.参数配置

2K上下文

Tokenizer:在Smollm Corpus上训练得到,词表大小为49152.

自注意力的是GQA分组查询注意力,模型具体配置如下:

7.其他细节没看到例如训练代码数据管理

2、苹果公司DCLM

https://github.com/mlfoundations/dclm

1、参数量:70亿和14亿 

DCLM小模型包含两种参数规模——70亿和14亿 

2、训练

DCLM-7B同样采用了decoder-only的架构,使用PyTorch和OpenLM框架进行预训练。

3、数据 4T token的DCLM-baseline数据集

总共4T token的DCLM-baseline数据集来自于总量240T的DCLM,DCLM-7B模型又进一步过滤出其中的2.5T用于训练。 

DataComp的思路反其道而行之——测评所用的模型是固定的,任务是在总共240T的数据池中过滤、处理出最好的数据。

  • 数据质量的重要性

        对于LLM的性能而言,预训练数据正在成为比模型架构和权重更重要的因素。Llama、Gemma、Phi等一系列「开源」模型都是只放权重、不公布数据

4、参数 2Kcontext

上下文长度为2048,小于Mistral 7B和Gemma 2 9B的8k长度。

5、有训练代码

3、Mistral:Mistral NeMo

 OpenAI 官宣 GPT-4o mini 早几个小时

这个小模型由 Mistral AI 和英伟达联合打造,参数量为 120 亿(12B),上下文窗口为 128k

新分词器 Tekken

Mistral NeMo 使用基于 Tiktoken 的新分词器 Tekken,该分词器经过 100 多种语言的训练,能比以前 Mistral 模型中使用的 SentencePiece 分词器更有效地压缩自然语言文本和源代码。在压缩源代码、中文、意大利文、法文、德文、西班牙文和俄文时,它的效率要高出约 30%。在压缩韩文和阿拉伯文时,它的效率是原来的 2 倍和 3 倍。事实证明,与 Llama 3 分词器相比,Tekken 在压缩所有语言中约 85% 的文本方面更胜一筹。

Mistral NeMO 经历了高级微调和对齐阶段。与 Mistral 7B 相比,它在遵循精确指令、推理、处理多轮对话和生成代码方面的能力大大提升。

4、微软 PHi

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/875919.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法之递归算法

递归是非常常见的一种算法, 也比较难以理解,简而言之,递归就是写了一个方法,方法中还调用了该方法,相当于自己调用自己,如果书写不当,就会有堆栈溢出的风险,无法跳出。 所以我们编写…

【Rust光年纪】选择适合你的项目:Rust语言云平台SDK大比拼

构建稳健的云服务:深度评析Rust语言云平台SDK 前言 随着云计算和跨平台开发的不断发展,越来越多的开发者开始关注使用Rust语言进行云服务开发。本文将介绍几个用于Rust语言的主流云平台SDK,探讨它们的核心功能、安装与配置方法以及API概览&…

虚拟机centos9搭建wordpress

目录 1. 更换yum源更新系统软件包: 1.1备份yum源 1.1.1创建备份目录: 1.1.2移动现有仓库配置文件到备份目录: 1.1.3验证备份: 1.2更换yum源 1.2.1添加yum源 1.2.2删除和建立yum缓存 1.3更新系统软件包 1.4 yum与dnf介绍…

RV1126 Linux 系统,接外设,时好时坏(二)排查问题的常用命令

在 RV1126 Linux 系统中,排查外设连接问题时,可以使用多种命令来诊断和调试。以下是一些常用的命令和工具: 1. 查看系统日志 dmesg: 显示内核环形缓冲区的消息,通常包含设备初始化、驱动加载和错误等信息。 dmesg | grep <设备名或相关关键字>journalctl: 查看系统…

做短视频素材哪里找?去哪里下载?自媒体下载素材网站分享

自媒体视频创作&#xff1a;高质量素材网站大公开&#xff01; 大家好&#xff0c;我是一名热情的短视频创作者。今天&#xff0c;我要与大家分享一些寻找优质视频素材的秘诀。无论是新手还是老手&#xff0c;这些建议都能帮助你的视频在众多平台中脱颖而出&#xff0c;吸引更…

Python:jsonl文件转json文件,并做字段处理

在使用LLaMA-Factory对shenzhi-wang/Llama3-8B-Chinese-Chat&#xff08;https://huggingface.co/shenzhi-wang/Llama3-8B-Chinese-Chat/tree/main&#xff09;进行微调时&#xff0c;希望使用COIG-CQIA的小红书数据集&#xff08;https://huggingface.co/datasets/m-a-p/COIG-…

JVM 11 的优化指南:如何进行JVM调优,JVM调优参数有哪些

这篇文章将详细介绍如何进行JVM 11调优&#xff0c;包括JVM 11调优参数及其应用。此外&#xff0c;我将提供12个实用的代码示例&#xff0c;每个示例都会结合JVM启动参数和Java代码。 本文已收录于&#xff0c;我的技术网站 java-broke.site&#xff0c;有大厂完整面经&#x…

教育+大模型-可解释-2024-7-15

教育大模型-可解释 文章目录 教育大模型-可解释摘要1 引言2 LLMs在教育领域应用3 可解释性的关键技术和方法3.1 局部解释3.1.1 基于特征归因的解释3.1.2 基于注意力的解释3.1.3 基于示例的解释 3.2 全局解释3.2.1 基于探针的解释3.2.2 模型内部机制的揭示 摘要 随着人工智能技…

Java面试八股之Spring-boot-starter-parent的作用是什么

Spring-boot-starter-parent的作用是什么 spring-boot-starter-parent 是Spring Boot项目中的一个特殊POM&#xff08;Project Object Model&#xff09;&#xff0c;它主要的作用是提供一系列默认的配置和依赖管理&#xff0c;以便简化项目的构建过程。以下是spring-boot-sta…

二十、【机器学习】【非监督学习】- 均值漂移 (Mean Shift)

系列文章目录 第一章 【机器学习】初识机器学习 第二章 【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression) 第三章 【机器学习】【监督学习】- 支持向量机 (SVM) 第四章【机器学习】【监督学习】- K-近邻算法 (K-NN) 第五章【机器学习】【监督学习】- 决策树…

【支持语言模型和视觉语言模型的推理引擎sglang】

介绍 sglang是一个AI推理引擎&#xff0c;是一个专门为大语言模型和视觉语言模型设计的高效服务框架。 就像F1赛车需要顶级发动机一样&#xff0c;大语言模型也需要高效的推理引擎来发挥潜力。 而sglang正是这样一个性能怪兽。 根据LMSys组织的官方公告&#xff0c;最新的s…

【C算法】编程初学者入门训练140道(1~20)

牛客编程初学者入门训练150题 BC1 实践出真知BC2 我是大VBC3 有容乃大BC6 小飞机BC7 缩短二进制BC8 十六进制转十进制BC9 printf的返回值BC10 成绩输入输出BC11 学生基本信息输入输出BC12 字符圣诞数BC13 ASCII 码BC14 出生日期输入输出BC15 按照格式输入并交换输出BC16 字符转…

Lianwei 安全周报|2024.07.22

新的一周又开始了&#xff0c;以下是本周「Lianwei周报」&#xff0c;我们总结推荐了本周的政策/标准/指南最新动态、热点资讯和安全事件&#xff0c;保证大家不错过本周的每一个重点&#xff01; 政策/标准/指南最新动态 01 国家标准《数据安全技术个人信息保护合规审计要求》…

Milvus × RAG助力快看多业务应用

快看介绍 快看漫画创办于2014年&#xff0c;集漫画阅读、创作互动、线下漫画沉浸体验、周边衍生品购买等体验于一体&#xff0c;是年轻人的一站式漫画生活方式平台。截止到2023年底&#xff0c;快看总用户超过3.8亿&#xff0c;在中国漫画市场渗透率超过50%。经过9年的创作者生…

Mybatis-plus自动生成MVC架构

系列文章目录 目录 系列文章目录 文章目录 前言 核心特性 一、mybatis-plus插件介绍 二、使用步骤 1.下载插件 2.读入数据 总结 前言 MyBatis-Plus&#xff08;简称 MP&#xff09;是一个基于 MyBatis 的增强工具包&#xff0c;旨在简化开发流程并提高开发效率。以下…

如何使用EXCEL访问WinCC中的实时数据实现报表

如果项目已经做好了&#xff0c;不想改动现有项目。那么可以使用 EXCEL 通过 OPC 方式访问 WinCC 项目的数据。预先定义好 EXCEL 表格样式&#xff0c;通过以下方式实现。通过以下步骤打开 EXCEL 中的 VB 编辑器 引用 WinCC 提供的 OPC 客户端 Control 控件: Siemens OPC DAAut…

智能音箱的工作原理

智能音箱的工作原理主要涉及到硬件和软件两个层面的协同工作&#xff0c;以及多个关键技术环节的配合。以下是对智能音箱工作原理的详细解析&#xff1a; 一、硬件层面 智能音箱的硬件组成通常包括主控芯片、麦克风阵列、扬声器、Wi-Fi模块和电源等部分。 主控芯片&#xff1…

H5+CSS+JS工作性价比计算器

工作性价比&#xff1d;平均日新x综合环境系数/35 x(工作时长&#xff0b;通勤时长—0.5 x摸鱼时长) x学历系数 如果代码中的公式不对&#xff0c;请指正 效果图 源代码 <!DOCTYPE html> <html> <head> <style> .calculator { width: 300px; padd…

【个人记录】pkg可以将Node.js应用打包为可执行文件

背景 之前按客户需求做了一个简易定时任务应用&#xff0c;完成后为方便客户使用需要打包为可执行文件。 pkg工具 pkg 是一个非常流行的工具&#xff0c;它能够将 Node.js 应用打包成独立的可执行文件。它支持多个平台&#xff0c;包括 Windows、macOS 和 Linux。 测试环境…

懒人精灵安卓版纯本地离线文字识别插件

目的 懒人精灵是一款可以模拟鼠标和键盘操作的自动化工具。它可以帮助用户自动完成一些重复的、繁琐的任务&#xff0c;节省大量人工操作的时间。懒人精灵也包含图色功能&#xff0c;识别屏幕上的图像&#xff0c;根据图像的变化自动执行相应的操作。本篇文章主要讲解下更优秀的…