LLaMa

文章目录

  • Problems
    • 403
  • 代码文件
  • LLaMA: Open and Efficient Foundation Language Models
    • 方法
      • 预训练数据
      • 结构
      • 优化器
      • 一些加速的方法
    • 结果
      • Common Sense Reasoning
      • Closed-book Question Answering
      • Reading Comprehension
      • Massive Multitask Language Understanding
    • Instruction Finetuning
    • 附录
      • Question Answering
      • Generations from LLaMA-65B
      • Generations from LLaMA-I
  • Llama 2: Open Foundation and Fine-Tuned Chat Models
    • pretraining methodology
      • Pretraining Data
      • Training Details
    • fine-tuning methodology
      • Supervised Fine-Tuning(SFT)
      • Reinforcement Learning with Human Feedback (RLHF)

Problems

403

reclone and request.

代码文件

两个测试样例:

  1. example_text_completion.py: 文本补全示例;
  2. example_chat_completion.py: 对话生成示例.
torchrun --nproc_per_node 1 example_text_completion.py \--ckpt_dir llama-2-7b/ \--tokenizer_path tokenizer.model \--max_seq_len 128 --max_batch_size 4
torchrun --nproc_per_node 1 example_chat_completion.py \--ckpt_dir llama-2-7b-chat/ \--tokenizer_path tokenizer.model \--max_seq_len 512 --max_batch_size 6

ckpt_dir: 模型文件路径
tokenizer_path: 分词器文件路径

对于示例一, prompt中提供了需要补全的文本.

对于示例二, prompt以字典形式组织对话. 每个item包含rolecontent两个关键字.

  1. role:user: 用户, 用以输入文本;
  2. role:assistant: 系统, 用以输出文本;
  3. role:system: 对系统生成对话的要求;

LLaMA: Open and Efficient Foundation Language Models

发展:
scale models -> scale data -> fast inference and scale tokens

本文的要点:
通过在更多的token上训练, 使得在不同推理开销下, 达到最佳的性能.

方法

LLaMA采用Auto Regression的方式进行预训练.

预训练数据

公开数据.

请添加图片描述

tokenizer的方法为: bytepair encoding(BPE). 总共包含1.4T个tokens.

结构

采用了之前一些被证明可行的方法:

  1. RMSNorm from GPT3;
  2. SwiGLU from PaLM;
  3. RoPE from GPTNeo.

优化器

  1. AdamW ( β 1 = 0.9 , β 2 = 0.95 , w e i g h t d e c a y = 0.1 \beta_1=0.9, \beta_2=0.95, weight~decay=0.1 β1=0.9,β2=0.95,weight decay=0.1);
  2. warmup 2000 step and cosine learning rate schedule;
  3. gradient clippping = 1.0;

一些加速的方法

  1. causal multi-head attention;
  2. reduce the amount of activations that recomputed during the backward pass.

2048块80G的A100训练21天.

结果

Common Sense Reasoning

请添加图片描述

zero-shot.

CSR : 基于问题和常识性选择, 让模型做出判断.

请添加图片描述

Closed-book Question Answering

请添加图片描述

请添加图片描述

不依赖于外部信息源, 只凭借训练时学习得到的信息完成问答任务.

自由文本的评估指标. exact match perfromance

Reading Comprehension

请添加图片描述

在这里插入图片描述

Massive Multitask Language Understanding

请添加图片描述

在这里插入图片描述

Mathematical reasoning 和 Code Generation就不再赘述.

Instruction Finetuning

待补充

附录

Question Answering

请添加图片描述
对于Natural Questions 和 TriviaQA 使用1-shot设定. 预先打印字符串:Answer these questions:\n在问题和答案之前.

Generations from LLaMA-65B

Without instruction finetuning.

Prompts are in bold.

Only present part of them.

请添加图片描述

请添加图片描述

Generations from LLaMA-I

请添加图片描述

Llama 2: Open Foundation and Fine-Tuned Chat Models

LLAMA2 : 新的训练数据组织形式, 更大的预训练语料库, 更长的上下文, grouped-query attention.

LLAMA2 : 针对对话场景的微调版本.

pretraining methodology

Pretraining Data

  1. a new mix of data , not including data from Meta’s products or services;
  2. 移除包含私人信息的数据;
  3. 2 trillion tokens and up-sampling the most factual sources.

Training Details

除了RMSNorm, RoPE and SwiGLU, 增加了GQA.

其余与LLaMA 1一致.

fine-tuning methodology

Supervised Fine-Tuning(SFT)

使用公开的instruction tuning data.

提取高质量的部分数据, 模型的效果仍然得到提升. Quality is All You Need.

发现人类写的注释和模型生成+人工检查的注释效果差不多.

微调细节:

  1. cosine learning rate schedule;
  2. initial lr = 2e-5;
  3. weight decay = 0.1;
  4. batch size = 64;
  5. sequence length = 4096.

Reinforcement Learning with Human Feedback (RLHF)

人类从模型的两个输出中选择喜欢的一个. 该反馈随后用于训练一个奖励模型. 该模型学习人类的偏好模式.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/85263.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

yo!这里是c++中的多态

前言 在学完继承之后,紧接着我们来认识多态,建议继承不太熟的先把继承部分的知识点搞熟,再来学习多态,否则会走火入魔,会混乱。因为多态是建立在继承的基础之上,而且多态中还存在与继承类似的概念&#xff…

QT-day2

1、完善登录框 头文件 widget.h #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QMessageBox> //消息对话框类头文件 #include <QDebug> #include <QPushButton> #include "second.h"QT_BEGIN_NAMESPACE namespace…

【vue2第十九章】手动修改ESlint错误 和 配置自动化修改ESlint错误

目标:认识代码规范 代码规范:一套写代码的约定规则。例如:“赋值符号的左右是否需要空格”&#xff0c;"一句结束是否是要加;”等 为什么要使用代码规范&#xff1f; 在团队开发时&#xff0c;提高代码的可读性。 在创建项目时&#xff0c;我们选择的就是一套完整的代码…

STM32F103RCT6学习笔记2:串口通信

今日开始快速掌握这款STM32F103RCT6芯片的环境与编程开发&#xff0c;有关基础知识的部分不会多唠&#xff0c;直接实践与运用&#xff01;文章贴出代码测试工程与测试效果图&#xff1a; 目录 串口通信实验计划&#xff1a; 串口通信配置代码&#xff1a; 测试效果图&#…

MQ - 22 Kafka集群架构设计与实现

文章目录 导图概述数据可靠性副本拉取 Leader 数据动态维护可用副本集合控制 Leader 切换和数据截断安全控制可观测性总结导图 概述 MQ - 15 集群篇_如何构建分布式的消息队列集群(下)说了基于 ZooKeeper 和 KRaft 来构建集群的两种方式,在这里就不再重复。 这里我们详细分…

【力扣每日一题】2023.9.22 将钱分给最多的儿童

目录 题目&#xff1a; 示例&#xff1a; 分析&#xff1a; 代码&#xff1a; 题目&#xff1a; 示例&#xff1a; 分析&#xff1a; 给我们一笔钱和一些小朋友&#xff0c;要我们把这些钱分完不能剩&#xff0c;并且不能有小朋友被分到4元以及每个人至少分到1元&#xff…

Splashtop 的卓越安全性获得 ISO 27001 认证

在快速发展的数字环境中&#xff0c;实施强有力的安全措施尤为重要。Splashtop 始终优先考虑安全性&#xff0c;一如既往地在远程访问行业坚持以身作则。 我们最近宣布 Splashtop 已获得 ISO/IEC 27001 认证&#xff0c;证明了我们对信息安全、数据保护和合规性最高标准的坚定…

SpringMVC返回不带引号的字符串方案汇总

SpringMVC返回不带引号的字符串方案汇总 问题 项目使用springboot开发的&#xff0c;大部分出参为json&#xff0c;使用的fastJson。 现在有的接口需要返回一个success字符串&#xff0c;发现返回结果为“success”&#xff0c;多带了双引号。这是因为fastJson对出参做了处理…

有没有免费的人才测评工具,免费的人才测评系统软件?

最近看到知乎上有个问题挺火的&#xff0c;就是问有没有免费的人才测评工具&#xff0c;人才测系统软件目前是有挺多的&#xff0c;但是要说免费&#xff0c;我还真心没有听说过&#xff0c;不但不免费&#xff0c;比较专业的人才测评公司&#xff0c;价格还是非常高的。 人才…

UOS服务器操作系统搭建离线yum仓库

UOS服务器操作系统搭建离线yum仓库 1050e版本操作系统&#xff08;适用ARM64和AMD64&#xff09;1、挂载everything镜像并同步2、配置本地仓库3、配置nginx发布离线源 1050e版本操作系统&#xff08;适用ARM64和AMD64&#xff09; 首先需要有everything镜像文件 服务端操作流…

有趣的设计模式——适配器模式让两脚插头也能使用三孔插板

版权声明 本文原创作者&#xff1a;谷哥的小弟作者博客地址&#xff1a;http://blog.csdn.net/lfdfhl 场景与问题 众所周知&#xff0c;我们国家的生活用电的电压是220V而笔记本电脑、手机等电子设备的工作压没有这么高。为了使笔记本、手机等设备可以使用220V的生活用电就需…

3、Elasticsearch功能使用

第4章 功能使用 4.1 Java API 操作 随着 Elasticsearch 8.x 新版本的到来&#xff0c;Type 的概念被废除&#xff0c;为了适应这种数据结构的改 变&#xff0c;Elasticsearch 官方从 7.15 版本开始建议使用新的 Elasticsearch Java Client。 4.1.1 增加依赖关系 <propertie…

Universal Robot (UR3)与USB摄像头和电磁夹持器结合的ROS拾取和放置硬件实施详细教程:从连接到实践

第一部分&#xff1a;连接Universal Robot (UR3)到PC 1. 将 Universal Robot (UR3) 连接到 PC (Ubuntu 16.04) 在实现机器人的自动化任务之前&#xff0c;首先需要确保机器人与计算机之间的连接是稳定的。在这一部分&#xff0c;我们将详细介绍如何将Universal Robot (UR3)连…

解决yarn下载的具体操作步骤

如何使用yarn下载依赖 概述 在软件开发中&#xff0c;我们通常需要使用到各种不同的库和框架。为了方便管理这些依赖项&#xff0c;我们可以使用包管理工具来下载和安装这些库。yarn就是一款流行的包管理工具&#xff0c;它可以帮助我们高效地管理和下载依赖。 安装yarn 在…

火花塞工作原理

1.红旗H9轿车2023款发布 2023年元旦过后&#xff0c;红旗汽车在人民大会堂举办了红旗H9的新车发布会&#xff0c;一汽红旗全新的H9豪华轿车终于出炉了全套的配置参数&#xff0c;红旗H9的车身长度达到5137mm&#xff0c;宽度1904mm&#xff0c;轴距3060mm&#xff0c;总高则控…

详细指南:使用C语言控制TI ADS1262和ADS1263模数转换器

第一部分&#xff1a;介绍与背景 TI的ADS1262和ADS1263是高精度、高分辨率的模数转换器&#xff08;ADC&#xff09;。它们广泛应用于各种精密测量应用中&#xff0c;如工业自动化、医疗设备和科研仪器。为了方便工程师和开发者使用这两款ADC&#xff0c;本文将详细介绍如何使…

2023-9-22 滑雪

题目链接&#xff1a;滑雪 #include <cstring> #include <algorithm> #include <iostream>using namespace std;const int N 310;int n, m; int h[N][N]; int f[N][N];int dx[4] {-1, 0, 1, 0}, dy[4] {0, 1, 0, -1};int dp(int x, int y) {int &v f…

读博后才知道的真道理

观点1 作者:李月亭 链接:https://www.zhihu.com/question/49608607/answer/2403947870知乎 博士毕业半年,也参加工作一段时间了,谈谈对读博的感想。 1、毕业最重要。虽然大家都知道,但是还是要特别强调一下。一定要在博士入学时就把毕业要求搞清楚。尤其是直博的,千万…

模版语法、列表渲染、文本指令、事件指令、属性指令、vue中的style和class、条件渲染、v-for能循环的

vue 基础 1 模版语法 2 文本指令 2.1 模版语法 v-text 2.2 文本指令 v-html 2.3 文本指令 v-show 2.4 文本指令 v-if 2.5 v-show把图片的显示隐藏 3 事件指令 ES6对象语法演变 3.1 v-on 不传参/a> 3.2 v-on 传参和 v-on:简写成 4 属性指令 4.1 属性指令之 v-bind: 简…

Python+Django前后端分离

程序示例精选 PythonDjango前后端分离 如需安装运行环境或远程调试&#xff0c;见文章底部个人QQ名片&#xff0c;由专业技术人员远程协助&#xff01; 前言 这篇博客针对《PythonDjango前后端分离》编写代码&#xff0c;代码整洁&#xff0c;规则&#xff0c;易读。 学习与应…