开源大模型王者归来:llama3最大4000亿参数,性能GPT4相当,超越Grok3140亿且全开源代码

  • llama3&Grok
    目前开源的超级大模型有Gork和Llama3
    https://github.com/xai-org/grok-1;该模型称为史上最大开源LLM,参数高达3140亿!马斯克如约开源Grok,10小时狂揽10000颗Star,搞笑的是这个模型只开源了推理没有训练,同时这个模型按照源码分析是encoder-moe-decoder架构。
    https://github.com/meta-llama/llama3;官方介绍 是目前提供生成式AI能力免费能力最大LLM,参数量4000亿!有了llama3全世界就能拥有最强大人工智能。
    在这里插入图片描述
    一:目前已经开源了8B和70B版本的llama3模型,包括提供预训练和微调不同的版本,这个确实能直接推动众多垂直和通用领域大模型基础研究和应用应用。
    二:几个月后Meta将推出更大的400B+模型。Meta研究人员Aston Zhang在介绍中称研究团队本次对预训练方法、长文本、后训练、微调等众多领域进行相关研究工作。
    三:相关工作为preturning和postingtraining上进行了数据和规模性提升,使用了2.4万个GPU集群,超过了15T的token完成基础训练,数据量是llama2的7倍,代码是llama2的4倍,支持8k的上下文是llama的3倍。
    四:学习了人类高质量数据1800个提示涵盖12个关键用例(建议、思考、分类、封闭式问答、编码、写作、提取、角色、开放式问答、推理、重写总结),同时为了防止过拟合他们进行了相关工作人类评估。

在这里插入图片描述
在这里插入图片描述
五:模块结构方面采用了decoder-only设计思路,与llama2的关键改进为:
5.1 : 使用了128k的词汇表做tokenizer实现更加有效的分词从而显著的提高模型性能,并将sentencepiece换成了tiktoken。
5.2: 在自注意力阶段为了提升模型的推理效率,研究团队在目前开源的8B和70B模型均采用了分组查询注意力GQA。
5.3: 数据上在预训练阶段使用了15T的token,超过了30种语言,其中英语以外的语言占比5%。为了接受高质量的数据实现了一系列数据过滤的pipline,包括启发式过滤器、NSFW过滤器、语义重复删除法、文本分类器来预测数据质量,从而实现了为模型提供高质量的学习数据,此次最大的更新是仔细整理数据及人类注释进行多轮质量对齐。
5.4: 广泛的工程实验评估,测试包括日常提问、STEM、编码、历史等表现最佳。后训练方法采用了SFT有监督学习,拒绝采样、PPO和DPO组合、SFT使用的prompt质量和PPO中使用了偏好排序实现了模型对齐大幅提升。
5.5: 预训练在H100上进行了770万个GPU的小时计算、同时实现了数据并行、模型并行、管道并行,实现了有效训练时间超过95%。从而使得训练效率提升了3倍。
5.6: 增加了信任安全工具llama guard和cybersec eval,并且引入了code shield实现大模型在代码中对不安全代码拦截。
5.7: 使用了torchtune开发了llama3,可以更加便捷使用LLM模型创作、微调、实验。它可以高效的内存分析训练方法,同时与众多平台集成方便不同设备移植高效推理。同时还提供了和LangChain结合使用的开发部署的解决方案。
在这里插入图片描述
目前相关组织已经完成了对汉语的base和instruct模型
Github: https://github.com/UnicomAI/Unichat-llama3-Chinese
HF: https://huggingface.co/BoyangZ/llama3-chinese
shareAI/llama3-Chinese-chat-8b · Hugging Face
https://huggingface.co/xtuner/llava-llama-3-8b-v1_1

模型部分核心代码对比图
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • Grok,马斯克旗下XAI开源了3140亿参数的混合专家模型Grok-1,成为迄今参数量最大的开源LLM。该模型在大量文本数据上训练,未针对特定任务微调,遵守Apache-2.0许可证,鼓励开发者使用、修改和分发。尽管存在关于开源技术利弊的争议,马斯克坚信开源将推动AI技术的发展。
  • Grok,从源码分析这个模型结构同时基本熟悉了下这个模型属于MoE类的编解码设计范式,并且这个模型并没有开源训练代码,所以这种其实原则上不算开源,有炒作嫌疑。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    综上述,根据我们对模型结构和训练方法的理解结论如下:
    数据质量非常影响模型效果,在控制变量法的消融实验中增加高质量的数据可以线性提升性能。
    影响模型推理最严重的问题是attention结构,其实kvcache可以根据设计attention,数据并行,结构并行提升。
    目前google和openai在scaling law的观点是对立的,那么在工程上应该这种对立是统一的,也就是说在一定范围内两种方法都是有效的,只是不同的有效边界问题没解决。
    个人针对大模型目前从以下几个角度开始学习研究:tokenizer算法、embedding算法、encoder-only,decoder-only,decoder-moe-only、activation function、loss function、数据并行、结构并行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/2371.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

17.Nacos与Eureka区别

Nacos会将服务的提供者分为临时实例和非临时实例。默认为临时实例。 临时实例跟eureka一样,会向注册中心报告心跳监测自己是否还活着。如果不正常了nacos会剔除临时实例。(捡来的孩子) 非临时实例,nacos会主动询问服务提供者是否…

古董展新风尚:山海鲸数据大屏引领科技潮流

在数字化浪潮的推动下,传统文化与现代科技正日益融合,展现出独特的魅力。近日,山海鲸推出了一款古董展览数据可视化大屏,将古董藏品的丰富内涵以直观、生动的形式呈现在观众面前,让人们在欣赏古董之美的同时&#xff0…

深入探索GDB:Linux下强大的调试神器

目录 一、GDB简介:源码级调试的基石 二、GDB基础操作:从入门到熟练 启动与基本命令 三、GDB进阶功能:解锁更深层次的调试能力 1. 回溯追踪:洞察调用栈 2. 动态内存检测:揪出内存问题 3. 条件断点与观察点&#…

制氢机远程监控运维方案

制氢机远程监控运维方案 在当今能源转型的大背景下,氢能作为清洁、高效且可再生的能源载体,其重要性日益凸显。而制氢机作为氢能产业链中的关键设备,其稳定运行与高效运维对于保障氢气供应、推动氢能产业健康发展至关重要。在此背景下&#…

基于Linux系统命令行安装KingbaseES数据库

人大金仓通用性数据库(Kingbase)下载网址:人大金仓-成为世界卓越的数据库产品与服务提供商 选择“软件版本-数据库”,筛选条件Linux、完整版。找到需要的版本,点击下载。我下载的是KingbaseES_V008R006C008B0014_Lin6…

实现Spring底层机制(二)

文章目录 阶段2—封装bean定义信息到Map1.代码框架图2.代码实现1.文件目录2.新增注解Scope存储单例或多例信息Scope.java3.修改MonsterService.java指定多例注解4.新增bean定义对象存储bean定义信息BeanDefinition.java5.修改pom.xml增加依赖6.修改容器实现bean定义信息扫描Sun…

nginx开启basic认证

basic认证也叫做http基本认证,防止恶意访问 首先用在线网站生成一个叫做htpasswd的账号密码文件。 将生成结果复制到/etc/nginx/htpasswd文件中 在server的location中配置 server { listen 80; server_name a.com;location / { root html;index index.…

springcloud alibaba 整合seata的TCC

一、seata服务端搭建同上篇。 Seata的AT模式客户端两阶段提交流程源码分析 二、seata客户端的结构 1.示例DEMO工程 下单,扣余额, 减库存。 2. MAVEN配置。 父工程:由于spring-cloud-starter-alibaba-seata依赖的seata-spring-boot-starter…

顺序栈着三种结构定义及其初始化

定义 顺序堆栈这三种结构定义及其初始化 - 知乎 (zhihu.com) 根据以上链接得到: 1.理解为数组,top是这个数组的索引值;定义这个结构体类型时,系统不分配空间 在主函数声明时,定义了关于这个结构体的变量&#xff0c…

Java 【数据结构】 二叉树(Binary_Tree)【神装】

登神长阶 第五神装 二叉树 Binary-Tree 目录 🎷一.树形结构 🪗1.概念 🎸2.具体应用 🎹 二.二叉树(Binary Tree) 🎺1.概念 🎻2.表现形式 🪕3.特殊类型 &#x1f941…

自己手动在Linux上实现一个简易的端口扫描器

背景 常常听到网络攻击有一个东西叫做端口扫描器,可以扫描指定服务器开放的端口,然后尝试连接,并寻找漏洞,最终攻破服务器。而那些使用的端口扫描器都是一个个现成的程序,看上去很厉害的样子。而实际上这些东西对于懂…

【前端技术】HTML基础入门篇

1.1 HTML简介 ​ HTML(HyperText Markup Language:超文本标记语言)是一种标识性的语言。它包括一系列标签.通过这些标签可以将网络上的文档格式统一,使分散的Internet资源连接为一个逻辑整体。HTML文本是由HTML命令组…

投资网站汇总

1、 中信证券(600030)历年财务指标——亿牛网https://eniu.com/gu/sh600030/cwzb 2、 3、 4、

每日一题 —— 最大子数组之和(动态规划)

1.链接 53. 最大子数组和 - 力扣&#xff08;LeetCode&#xff09; 2.描述 3.思路 4.参考代码 class Solution { public:int maxSubArray(vector<int>& nums) {int n nums.size();vector<int> dp(n1,0);int ret INT_MIN;for(int i 1;i<n;i){dp[i] ma…

跟着野火从零开始手搓FreeRTOS(6)多优先级的配置

在 FreeRTOS 中&#xff0c;数字优先级越小&#xff0c;逻辑优先级也越小。 之前提过&#xff0c;就绪列表其实就是一个数组&#xff0c; 里面存的是就绪任务的TCB&#xff08;准确来说是 TCB 里面的 xStateListItem 节点&#xff09;&#xff0c;数组的下标对应任务的优先级&a…

【Camera Sensor Driver笔记】五、点亮指南之Actuator配置

<slaveInfo> actuatorName dw9714v dirver IC 型号 slaveAddress 0x18 i2c write address i2cFrequencyMode FAST i2c 操作频率(400KHz) actuatorType VCM/BIVCM 马达类型 BIVCM&#xff08;中置马达&#xff…

ROS 2边学边练(33)-- 写一个静态广播(C++)

前言 通过这一篇我们将了解并学习到如何广播静态坐标变换到tf2&#xff08;由tf2来转换这些坐标系&#xff09;。 发布静态变换对于定义机器人底座与其传感器或非移动部件之间的关系非常有用。例如&#xff0c;在以激光扫描仪中心的坐标系中推理激光扫描测量数据是最简单的。 这…

服务器 BMC(基板管理控制器,Baseboard Management Controller)认知

写在前面 工作中遇到&#xff0c;简单整理博文内容涉及 BMC 基本认知理解不足小伙伴帮忙指正 不必太纠结于当下&#xff0c;也不必太忧虑未来&#xff0c;当你经历过一些事情的时候&#xff0c;眼前的风景已经和从前不一样了。——村上春树 基板管理控制器&#xff08;BMC&…

数字孪生创新工作流,助力百年大桥翻修

利用 Bentley 的 iTwin Capture 和 iTwin Experience 创建数字孪生模型&#xff0c;将现场施工时间缩短了 20% 重要交通枢纽焕然一新 罗伯特街大桥位于明尼苏达州圣保罗市&#xff0c;外观呈彩虹样拱形&#xff0c;近 100 年来一直是圣保罗市的标志性建筑。这座八跨钢筋混凝土…

Linux复习提纲2

Linux复习提纲 Linux概述 shell&#xff1a;交互式命令解释程序&#xff1b;用户和内核间交互的桥梁Shell不仅是交互式命令解释程序&#xff0c;还是一种程序设计语言shell是一种命令解释程序&#xff0c;批处理shell是linux的外壳&#xff0c;默认是bash2.1 Linux基础概念 log…