全流程透明双语大语言模型MAP-Neo,4.5T 高质量数据训练

前言

近年来,大语言模型 (LLM) 已经成为人工智能领域最热门的研究方向之一,并在各种任务中展现出前所未有的性能。然而,由于商业利益的驱动,许多最具竞争力的模型,例如 GPT、Gemini 和 Claude,其训练细节和数据来源往往被隐藏在专有接口背后。这限制了学术界对 LLM 的深入研究和应用。

为了解决这一问题,研究团队开源了 MAP-Neo,一个高性能、透明的双语大语言模型,旨在推动 LLM 研究的民主化。MAP-Neo 拥有 70 亿参数,从头开始训练,并使用了 4.5T 经过精心清洗和筛选的高质量 token。

  • Huggingface模型下载:https://huggingface.co/m-a-p/neo_7b

  • AI快站模型免费加速下载:https://aifasthub.com/models/m-a-p

技术特点

MAP-Neo 的透明性和高性能源于其独特的设计和训练策略:

  • 全流程透明: 与现有许多开源 LLM 不同,MAP-Neo 秉持着完全透明的理念,不仅公开了模型权重,还提供了完整的训练代码、预训练数据以及数据清洗流程,方便研究人员复现和验证模型。

  • 高质量数据训练: MAP-Neo 使用了名为 Matrix Data Pile 的预训练语料库,包含 4.5T 高质量 token,其中 52.55% 来自 Common Crawl,22.29% 来自编程代码,其余部分来自学术论文、书籍和其他印刷材料。研究团队针对不同的数据来源和内容类型,制定了相应的清洗和过滤策略,以确保数据的质量和多样性。

  • 高效的训练架构: MAP-Neo 在 Megatron-LM 框架的基础上进行了改进,增强了其对大型数据集训练的支持,并引入了 NEO Scaling Law,用于优化使用来自不同语料库的预训练数据集来扩展 LLM。

  • 精心设计的模型架构: MAP-Neo 采用 Transformer 解码器架构,并整合了 RoPE Embeddings、RMSNorm 以及 SwiGLU 等技术,以提高模型的效率和性能。此外,MAP-Neo 还采用了多阶段的训练策略,包括基础阶段和衰减阶段。

性能表现

MAP-Neo 在多项任务中都展现出令人印象深刻的性能,超越了同等规模的其他开源 LLM,例如 LLaMA-3 和 Mistral-7B:

  • 标准基准测试 MAP-Neo 在 BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC-Challenge、OpenBookQA-Fact、CommonsenseQA、MMLU、C-Eval 和 CMMLU 等标准基准测试中取得了优异成绩,展现出强大的语言理解和推理能力。

  • 代码生成: MAP-Neo 在 HumanEval、HumanEval-Plus、MBPP 和 MBPP-Plus 等代码生成任务中也表现突出,展现出良好的代码生成和理解能力。

  • 数学推理: MAP-Neo 在 GSM8K 和 MATH 等数学推理任务中取得了领先成绩,展现出强大的逻辑推理能力。

应用场景

MAP-Neo 作为一款全流程透明的双语大模型,具有广泛的应用场景:

  • 学术研究: 为研究者提供一个可复现、可解释的平台,推动双语大模型技术的发展。

  • 中文应用: 帮助解决中文LLM资源匮乏的问题,促进中文自然语言处理技术的进步。

  • 商业应用: 帮助企业快速构建自己的中文和英文LLM应用,降低开发成本,提升效率。

总结

MAP-Neo 的开源和透明,不仅为双语大模型的研究和应用提供了宝贵的资源,也推动了AI技术的民主化进程。我们相信,MAP-Neo 将为LLM的发展和应用开辟新的道路,助力人工智能技术的进步和普及。

模型下载

Huggingface模型下载

https://huggingface.co/m-a-p/neo_7b

AI快站模型免费加速下载

https://aifasthub.com/models/m-a-p

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/23651.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

读书笔记-《软件定义安全》之一:SDN和NFV:下一代网络的变革

第1章 SDN和NFV:下一代网络的变革 1.什么是SDN和NFV 1.1 SDN/NFV的体系结构 SDN SDN的体系结构可以分为3层: 基础设施层由经过资源抽象的网络设备组成,仅实现网络转发等数据平面的功能,不包含或仅包含有限的控制平面的功能。…

Unity Magica Cloth2 使用教程

视频教程 参考文章 前提: 找到角色的模型 模之屋,我这里准备了转好FBX格式的吟霖模型点击自取【源自 模之屋】 角色舞蹈动画 点击下载【源自 Mixamo】 导入Unity【如何将原神的角色导入Unity】 三渲二 (必须是2022.3LTS和URP项目) Magica Cloth2 头…

深入探索Stage #13:CSS层叠样式表的IE特性伪协议注入

在网络安全领域,跨站脚本攻击(XSS)是一种常见的攻击手段。随着Web技术的不断发展,攻击者也在不断探索新的攻击途径。本文将详细介绍如何利用IE浏览器的特性,通过CSS层叠样式表进行XSS攻击。 实验环境搭建 为了模拟IE…

spring boot 白盒测试实战

假设项目中存在以下代码: 常量类:public final static String NUMBER_REGEX "\\d"; service:return ReUtil.getGroup0(Constants.NUMBER_REGEX, waybill); 代码解析 解释: return ReUtil.getGroup0(Constants.NUMB…

python学习 - 使用OpenCV库(cv2)和imutils库实现辅助答题卡判别

测试数据见文章顶部位置资源!!! 使用了OpenCV库(cv2)和imutils库。代码的主要目的是处理图像中的问题,如识别图像中的文字,并对其进行分析和排序。 辅助答题卡判别 # -*- coding:utf-8 -*- fr…

python实现邮箱轰炸机

最近在学计算机网络看到套接字的练习 于是应用SMTP协议写了个发送邮箱的玩玩 可以发一大堆垃圾邮件给对方 其中参考了 关于发邮件报错535 Error:authentication failed解决方法http://t.csdnimg.cn/Bc0Dq 已经查询如何获取网易邮箱客户端授权码 base64编码 i…

Mybatis05-一对多和多对一处理

多对一和一对多 多对一 多对一的理解: 多个学生对应一个老师 如果对于学生这边,就是一个多对一的现象,即从学生这边关联一个老师! 结果映射(resultMap): association 一个复杂类型的关联&…

在线Logo背景去除:pixian.ai

文章目录 简介特色 简介 pixian.ai是一款智能图片背景去除工具,进入网页后,会非常醒目地提示你准备【Free】还是【Paid】,这点就非常好,不向有一些网站,主打免费使用,但时不时弹出“免费注册”&#xff0c…

【微信小程序】连接蓝牙设备

1、检查小程序是否授权蓝牙功能 initBluetooth() {const that thiswx.getSetting({success: (res) > {if (res.authSetting.hasOwnProperty(scope.bluetooth)) {//scope.bluetooth属性存在,且为falseif (!res.authSetting[scope.bluetooth]) {wx.showModal({tit…

Python 连接 MySQL 及 SQL增删改查(主要使用sqlalchemy)

目录 一、环境 二、MySQL的连接和使用 2.1方式一:sql为主 2.1.1创建连接 2.1.2 表结构 2.1.3 新增数据 ​编辑 2.1.4 查看数据 ​编辑 2.1.5 修改数据 2.1.6 删除数据 2.2方式二:orm对象关系映射 2.2.1 mysql连接 2.2.2 创建表 2.2.3 新增…

windows 安装pnpm

安装Node.js: 确保系统上已安装Node.js。pnpm需要Node.js来运行。如果尚未安装Node.js,请从其官方网站下载并安装适用于Windows的最新版本。 安装pnpm: 打开命令行工具(如CMD、PowerShell或Git Bash)。使用npm&…

解锁机器学习的无限可能:深入探究scikit-learn的强大功能

解锁机器学习的无限可能:深入探究scikit-learn的强大功能 第一部分:背景和功能介绍 在数据科学和机器学习领域,scikit-learn(简称sklearn)是一个广泛使用的Python库。它提供了简单高效的工具用于数据挖掘和数据分析&a…

【Python短期内快速掌握学习人工智能知识能力】:从零到入门的NLP学习秘籍

⭐️我叫忆_恒心,一名喜欢书写博客的研究生👨‍🎓。 如果觉得本文能帮到您,麻烦点个赞👍呗! 近期会不断在专栏里进行更新讲解博客~~~ 有什么问题的小伙伴 欢迎留言提问欧,喜欢的小伙伴给个三连支…

Echarts 在折线图的指定位置绘制一个图标展示

文章目录 需求分析需求 在线段交汇处用一个六边形图标展示 分析 可以使用 markPoint 和 symbol 属性来实现。这是一个更简单和更标准的方法来添加标记点在运行下述代码后,你将在浏览器中看到一个折线图,其中在 [3, 35] (即图表中第四个数据点 Thu 的 y 值为 35 的位置)处…

Java反射Reflect机制详解

文章目录 引言反射的基本概念反射基本原理反射应用场景反射基本使用获取类的Class对象获取构造方法并实例化对象获取和调用方法获取和修改字段反射工具类 反射源码解读获取Class对象的源码调用方法的源码 反射优缺点优点缺点 为什么需要反射总结 引言 Java反射是Java语言中的一…

【干货】视频文件抽帧(opencv和ffmpeg方式对比)

1 废话不多说,直接上代码 opencv方式 import time import subprocess import cv2, os from math import ceildef extract_frames_opencv(video_path, output_folder, frame_rate1):"""使用 OpenCV 从视频中抽取每秒指定帧数的帧,并保存到指定文件夹…

linux系统使用达梦数据库

在Linux系统中使用达梦数据库,首先需要确保已经正确安装了达梦数据库软件。以下是一个基本的使用示例,假设您已经安装了达梦数据库并且配置好了相关环境变量。 连接到数据库: 使用 dsql 命令连接到数据库 dsql -h hostname -u username -p…

宝贝,带上WebAssembly,换个姿势来优化你的前端应用

在你没崛起之前,脸是用来丢的 大家好,我是柒八九。一个专注于前端开发技术/Rust及AI应用知识分享的Coder 此篇文章所涉及到的技术有 WebAssemblyRustWeb Worker(comlink)wasm-packPhotonffmpeg.wasm脚手架生成前端项目因为,行文字数所限,有些概念可能会一带而过亦或者提供对…

BOM是什么东西

BOM(Byte Order Mark,字节顺序标记)是一个Unicode字符,通常出现在文本文件的开头。它的作用包括以下几个方面: 1. 指示文件的编码方式 BOM可以帮助软件识别文本文件使用的字符编码。不同的编码方式可能会使用不同的B…

经济与安全兼顾:茶饮店购买可燃气体报警器的价格考量

可燃气体报警器在如今的社会中扮演着至关重要的角色。它们用于检测环境中的可燃气体浓度,及早发现潜在的火灾隐患,保护人们的生命和财产安全。 在这篇文章中,佰德将介绍可燃气体报警器的安装、检定以及价格,通过实际案例和数据&a…