全流程透明双语大语言模型MAP-Neo,4.5T 高质量数据训练

前言

近年来,大语言模型 (LLM) 已经成为人工智能领域最热门的研究方向之一,并在各种任务中展现出前所未有的性能。然而,由于商业利益的驱动,许多最具竞争力的模型,例如 GPT、Gemini 和 Claude,其训练细节和数据来源往往被隐藏在专有接口背后。这限制了学术界对 LLM 的深入研究和应用。

为了解决这一问题,研究团队开源了 MAP-Neo,一个高性能、透明的双语大语言模型,旨在推动 LLM 研究的民主化。MAP-Neo 拥有 70 亿参数,从头开始训练,并使用了 4.5T 经过精心清洗和筛选的高质量 token。

  • Huggingface模型下载:https://huggingface.co/m-a-p/neo_7b

  • AI快站模型免费加速下载:https://aifasthub.com/models/m-a-p

技术特点

MAP-Neo 的透明性和高性能源于其独特的设计和训练策略:

  • 全流程透明: 与现有许多开源 LLM 不同,MAP-Neo 秉持着完全透明的理念,不仅公开了模型权重,还提供了完整的训练代码、预训练数据以及数据清洗流程,方便研究人员复现和验证模型。

  • 高质量数据训练: MAP-Neo 使用了名为 Matrix Data Pile 的预训练语料库,包含 4.5T 高质量 token,其中 52.55% 来自 Common Crawl,22.29% 来自编程代码,其余部分来自学术论文、书籍和其他印刷材料。研究团队针对不同的数据来源和内容类型,制定了相应的清洗和过滤策略,以确保数据的质量和多样性。

  • 高效的训练架构: MAP-Neo 在 Megatron-LM 框架的基础上进行了改进,增强了其对大型数据集训练的支持,并引入了 NEO Scaling Law,用于优化使用来自不同语料库的预训练数据集来扩展 LLM。

  • 精心设计的模型架构: MAP-Neo 采用 Transformer 解码器架构,并整合了 RoPE Embeddings、RMSNorm 以及 SwiGLU 等技术,以提高模型的效率和性能。此外,MAP-Neo 还采用了多阶段的训练策略,包括基础阶段和衰减阶段。

性能表现

MAP-Neo 在多项任务中都展现出令人印象深刻的性能,超越了同等规模的其他开源 LLM,例如 LLaMA-3 和 Mistral-7B:

  • 标准基准测试 MAP-Neo 在 BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC-Challenge、OpenBookQA-Fact、CommonsenseQA、MMLU、C-Eval 和 CMMLU 等标准基准测试中取得了优异成绩,展现出强大的语言理解和推理能力。

  • 代码生成: MAP-Neo 在 HumanEval、HumanEval-Plus、MBPP 和 MBPP-Plus 等代码生成任务中也表现突出,展现出良好的代码生成和理解能力。

  • 数学推理: MAP-Neo 在 GSM8K 和 MATH 等数学推理任务中取得了领先成绩,展现出强大的逻辑推理能力。

应用场景

MAP-Neo 作为一款全流程透明的双语大模型,具有广泛的应用场景:

  • 学术研究: 为研究者提供一个可复现、可解释的平台,推动双语大模型技术的发展。

  • 中文应用: 帮助解决中文LLM资源匮乏的问题,促进中文自然语言处理技术的进步。

  • 商业应用: 帮助企业快速构建自己的中文和英文LLM应用,降低开发成本,提升效率。

总结

MAP-Neo 的开源和透明,不仅为双语大模型的研究和应用提供了宝贵的资源,也推动了AI技术的民主化进程。我们相信,MAP-Neo 将为LLM的发展和应用开辟新的道路,助力人工智能技术的进步和普及。

模型下载

Huggingface模型下载

https://huggingface.co/m-a-p/neo_7b

AI快站模型免费加速下载

https://aifasthub.com/models/m-a-p

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/23651.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

读书笔记-《软件定义安全》之一:SDN和NFV:下一代网络的变革

第1章 SDN和NFV:下一代网络的变革 1.什么是SDN和NFV 1.1 SDN/NFV的体系结构 SDN SDN的体系结构可以分为3层: 基础设施层由经过资源抽象的网络设备组成,仅实现网络转发等数据平面的功能,不包含或仅包含有限的控制平面的功能。…

Unity Magica Cloth2 使用教程

视频教程 参考文章 前提: 找到角色的模型 模之屋,我这里准备了转好FBX格式的吟霖模型点击自取【源自 模之屋】 角色舞蹈动画 点击下载【源自 Mixamo】 导入Unity【如何将原神的角色导入Unity】 三渲二 (必须是2022.3LTS和URP项目) Magica Cloth2 头…

Mybatis05-一对多和多对一处理

多对一和一对多 多对一 多对一的理解: 多个学生对应一个老师 如果对于学生这边,就是一个多对一的现象,即从学生这边关联一个老师! 结果映射(resultMap): association 一个复杂类型的关联&…

在线Logo背景去除:pixian.ai

文章目录 简介特色 简介 pixian.ai是一款智能图片背景去除工具,进入网页后,会非常醒目地提示你准备【Free】还是【Paid】,这点就非常好,不向有一些网站,主打免费使用,但时不时弹出“免费注册”&#xff0c…

Python 连接 MySQL 及 SQL增删改查(主要使用sqlalchemy)

目录 一、环境 二、MySQL的连接和使用 2.1方式一:sql为主 2.1.1创建连接 2.1.2 表结构 2.1.3 新增数据 ​编辑 2.1.4 查看数据 ​编辑 2.1.5 修改数据 2.1.6 删除数据 2.2方式二:orm对象关系映射 2.2.1 mysql连接 2.2.2 创建表 2.2.3 新增…

解锁机器学习的无限可能:深入探究scikit-learn的强大功能

解锁机器学习的无限可能:深入探究scikit-learn的强大功能 第一部分:背景和功能介绍 在数据科学和机器学习领域,scikit-learn(简称sklearn)是一个广泛使用的Python库。它提供了简单高效的工具用于数据挖掘和数据分析&a…

【Python短期内快速掌握学习人工智能知识能力】:从零到入门的NLP学习秘籍

⭐️我叫忆_恒心,一名喜欢书写博客的研究生👨‍🎓。 如果觉得本文能帮到您,麻烦点个赞👍呗! 近期会不断在专栏里进行更新讲解博客~~~ 有什么问题的小伙伴 欢迎留言提问欧,喜欢的小伙伴给个三连支…

Echarts 在折线图的指定位置绘制一个图标展示

文章目录 需求分析需求 在线段交汇处用一个六边形图标展示 分析 可以使用 markPoint 和 symbol 属性来实现。这是一个更简单和更标准的方法来添加标记点在运行下述代码后,你将在浏览器中看到一个折线图,其中在 [3, 35] (即图表中第四个数据点 Thu 的 y 值为 35 的位置)处…

Java反射Reflect机制详解

文章目录 引言反射的基本概念反射基本原理反射应用场景反射基本使用获取类的Class对象获取构造方法并实例化对象获取和调用方法获取和修改字段反射工具类 反射源码解读获取Class对象的源码调用方法的源码 反射优缺点优点缺点 为什么需要反射总结 引言 Java反射是Java语言中的一…

【干货】视频文件抽帧(opencv和ffmpeg方式对比)

1 废话不多说,直接上代码 opencv方式 import time import subprocess import cv2, os from math import ceildef extract_frames_opencv(video_path, output_folder, frame_rate1):"""使用 OpenCV 从视频中抽取每秒指定帧数的帧,并保存到指定文件夹…

宝贝,带上WebAssembly,换个姿势来优化你的前端应用

在你没崛起之前,脸是用来丢的 大家好,我是柒八九。一个专注于前端开发技术/Rust及AI应用知识分享的Coder 此篇文章所涉及到的技术有 WebAssemblyRustWeb Worker(comlink)wasm-packPhotonffmpeg.wasm脚手架生成前端项目因为,行文字数所限,有些概念可能会一带而过亦或者提供对…

经济与安全兼顾:茶饮店购买可燃气体报警器的价格考量

可燃气体报警器在如今的社会中扮演着至关重要的角色。它们用于检测环境中的可燃气体浓度,及早发现潜在的火灾隐患,保护人们的生命和财产安全。 在这篇文章中,佰德将介绍可燃气体报警器的安装、检定以及价格,通过实际案例和数据&a…

PCL 生成空间椭圆点云

目录 一、算法原理二、代码实现三、结果展示本文由CSDN点云侠原创,原文链接。如果你不是在点云侠的博客中看到该文章,那么此处便是不要脸的爬虫。 一、算法原理 设椭圆在 X O Y XOY XOY平面上,参数方程为:

牛啊后续:如何一行C#代码实现解析类型的Summary注释(可用于数据字典快速生成)...

前言:下午有小伙伴要求,让我继续做个解析实体类注释信息的内容。所以我也顺便加入进来。以下开始正文实战操作: 项目需要勾选输出api文档文件。这样就可以让所有实体类的summary信息被写入到输出目录下。如果有多个xml文件也没关系&#xff0…

小程序 UI 风格美不胜收

小程序 UI 风格美不胜收 小程序 UI 风格美不胜收

MyEclipse中properties文件中文乱码(Unicode字符)解决办法

程序代码园发文地址:MyEclipse中properties文件中文乱码(Unicode字符)解决办法-程序代码园小说,Java,HTML,Java小工具,程序代码园,http://www.byqws.com/ ,MyEclipse中properties文件中文乱码(Unicode字符)解决办法htt…

Django学习三:views业务层中通过models对实体对象进行的增、删、改、查操作。

文章目录 前言一、Django ORM介绍二、项目快速搭建三、操作1、view.pya、增加操作b、删除操作c、修改操作d、查询操作 2、urls.py 前言 上接博文:Django学习二:配置mysql,创建model实例,自动创建数据库表,对mysql数据…

一周发文9篇!MIMIC-IV数据库周报(5.22~5.28)

重症医学数据库(MIMIC)是由计算生理学实验室开发的公开数据集,其中包括与数千个重症监护病房入院相关的去识别化健康数据,致力于推动临床信息学、流行病学和机器学习的研究。 MIMIC数据库于2003年在美国国立卫生研究院的资助下&am…

2024上海初中生古诗文大会倒计时4个半月:单选题真题示例和独家解析

现在距离2024年初中生古诗文大会还有4个半月时间,我们来看10道选择题真题和详细解析,了解古诗文大会的考察方式和知识点,从而更好地备考。 以下题目截取自我独家制作的在线真题集,都是来自于历届真题,去重、合并后&am…

面试成功的不二法门:详解Vue3答题章法

前言 面试题在网络上有如海洋之深,对于同一知识点,每个人的理解也各有千秋。我们在面试中常常会遇到一个瞬息间脑海里一片空白的情况,其实这并不是因为我们不懂,而是因为我们在回答的时候缺乏一个清晰的思路。那么问题来了&#x…