大语言模型入门

大语言模型入门

  • 1 大语言模型步骤
    • 1.1 pre-training 预训练
      • 1.1.1 从网上爬数据
      • 1.1.2 tokenization
        • 1.1.2.1 tokenization using byte pair encoding
    • 1.3 预训练
      • 1.3.1 context
      • 1.3.2 training
      • 1.3.3 输出
    • 1.2 post-training1:SFT监督微调
      • 1.2.1 token
    • 1.3 强化学习
      • 1.3.1 基于奖励函数进行试错
      • 1.3.2 人类反馈强化学习
      • PPO
      • GRPO
  • 4 大语言模型值得相信吗
    • 4.1 AI hallucinations幻觉
      • 4.1.1 如何确认存在幻觉
      • 4.1.2 如何解决幻觉
    • 4.2 大模型心理学LLM psychology
    • 4.3 大模型的自我认知
    • 4.4 大模型的数学能力
      • 4.4.1 Let the model think
      • 4.4.2 如果强行要求直出结果,可能导致出错
      • 4.4.3 Use tools
        • 4.4.3.1 Use tools to count
        • 4.4.3.2 Use tools to spell
      • 4.4.4 为什么模型认为4.11 > 4.9
  • Deepseek
    • Reasoning oriented RL using GRPO

1 大语言模型步骤

1.1 pre-training 预训练

1.1.1 从网上爬数据

download and preprocess the internet, including url filtering(like, removing racist/adult websites), PII removal(personal identifiable information should be removed, 豆包被爆输出个人信息,所以是这一点没有做好)
数据规模大概是44TB左右,不大,甚至一个大点的移动硬盘就可以装下。

1.1.2 tokenization

tokenization = context -> symbols/a sequence of tokens

  1. 文字编码的本质就是把字或字母转成一个有限表示的序列,比如a-z可以用1-26来表示。
  2. 这个序列不希望太长,要不然变相挤占了输入资源
1.1.2.1 tokenization using byte pair encoding

找到常出现的编码对,比如(125 67),就把它合成为一个新编码符号(比如301),然后再看有没有新的编码对,比如(301 786),那就再把这个合成新的。这样做decrease the length and increase the symbol size, in practice symbol size turns out to be 100k。
在这里插入图片描述

44TB -> 15 trillion万亿 token sequences

1.3 预训练

1.3.1 context

选取任意长度的token窗口arbitrary window lengths of tokens, but in practice the maximum length is often set as 16k/8k/4k

1.3.2 training

模型输出每个token的概率,和真值算loss

1.3.3 输出

做完预训练的模型一般称为base,base一般不会被release出来。
如果给base输入一句话,它不会回答,只会续写。
如果想要prompt,可以参考如下,因为模型具有in-context learning ability
在这里插入图片描述
在这里插入图片描述

这个base model更像是internet document simulator

1.2 post-training1:SFT监督微调

  1. The pre-training stage is to sample documents, the post-training stage is to give answers to questions.
  2. The pre-training relies on the online documents, but the post-training stage totally throws them out and use datasets of human-labeling conversations.
  3. Knowledge in the parameters is the vague recollection (like something people read 1 month age); while knowledge in the context is the working memory (like something people read just now),因此在做prompt时,可以把尽可能充分的信息给到模型去推理,working memory可以直接访问,更加准确。
  4. The pre-training stage takes 3 months while post-training 3 hours, because the datasets of conversations are much smaller.
  5. This stage is much computationally cheaper.
  6. 这个阶段要学会和人类互动,也要拒绝不合理的要求(比如如何黑进别人的电脑)
  7. 这个阶段不会也无法覆盖所有的可能的问题,但是通过这种示例,模型能够学到这样的统计学模式statistical pattern,从而在推理时遇到没被训练过的问题,也能给予回答。
  8. 从LLM获得的回答其实是类似人类标注员的回答,或者说LLM公司编写的回答规范的回答。You are not talking to a magical AI, instead an average labeler.
  9. 为了克服大模型幻觉,可以使大模型具备联网搜索能力,然后根据这些信息组织答案,这个方法也要添加在训练集中。
    在这里插入图片描述

1.2.1 token

因为输入的是对话,所以需要对对话进行处理,增加虚拟独白部分,分别在最前和最后,而且要指明是user还是assistant。
在这里插入图片描述

在推理时,输入到<|im_start|>assistant<|im_sep|>,后面的由模型补充就得到了答案。

1.3 强化学习

chatgpt-4o are mostly SFT models, but deepseek RL models. So deepseek can present thinking process.
RL is a powerful way to learn. 在AlphaGo的训练中,采用了强化学习的ALphaGo获得了更强大的性能。Models can’t fundamentally go beyond a human player if it just imitates the human players. RL is not restrained by the human performance.
在这里插入图片描述

1.3.1 基于奖励函数进行试错

给模型一个问题,让它产生非常多次的回答,然后选出最好的回答(最精简,正确),然后拿进去训练。
SFT更像是RL的初始化过程,教模型如何组织一个答案,但是模型学会组织好答案是需要依靠强化学习的。
在这里插入图片描述

在LLM中,pre-training和SFT已经标准化了,但是RL仍是在早期阶段。This stage is early and nascent. 所以很多公司并不公开讨论这些细节。

因此,deepseek能够公开其RL方法,是对该领域的重要贡献。This paper reinvigorated the interest of RL in LLMs, and gave the necessary details to reproduce the results.

  1. 论文名称:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
  2. 论文链接:https://arxiv.org/abs/2501.12948

下图表示,随着RL训练,模型use more tokens to achieve higher accuracy.
在这里插入图片描述
因为随着模型训练,它在不停try out different ideas,甚至可能“顿悟”aha moment。这些思考过程导致了模型回答长度变长,以及deepseek的think的过程。
在这里插入图片描述

1.3.2 人类反馈强化学习

上述都在说的是易于verify的任务,可以通过自动化的评判标准进行评价,从而引导模型学习,但是对于unverified task, like creative writing tasks,就无法依赖自动化的评价工具了,需要人类进行评价和反馈。

  1. 人类反馈的是排序,而不是分数。因为针对某些任务(比如讲一个笑话),很难给它打分,因此会让模型针对同一个问题生成多个任务,然后人类对其进行排序。
  2. 如果让模型每生成一个答案,就拉一组评审员来评估,是很naive和cost的,因此,通过评审员训练一个模型,让模型学会如何给打分,分数和人类排序是正相关的。The reward model is a totally seperate neural net, is a simulator of human preferences.

PPO

proximal policy opt
最大化长期奖励,但是通过clip保证不会偏离当前策略太远。

举个例子:智能家居系统
有一个智能家居系统,其中的恒温器需要根据室内外温度、能源价格等因素来调整设置,以达到舒适与节能的平衡。这个恒温器就是我们的“智能体”,它的目标是通过调节温度来最大化长期奖励(比如节省能源费用和保持舒适)。
场景设定:
状态:当前室内温度、室外温度、时间等。
动作:将恒温器设置为 20°C、21°C 或 22°C。
奖励:根据能源消耗和舒适度打分,比如:
如果温度太低或太高,奖励较低(因为不舒服)。
如果温度适中且能源消耗少,奖励较高。
恒温器需要通过不断尝试不同的设置来找到最优策略。PPO 的作用就是帮助它在学习过程中逐步优化策略,避免“走得太远”而犯错。

GRPO

group relative policy opt
一种用于大模型的策略优化算法,通过分组比较,动态调整学习策略,使训练更高效和稳定。因为之前是采用PPO算法,PPO会直接冲着奖励最高的方向去学习,无法平衡风险。

举个例子:班级小组学习
假设一个班级要提升数学成绩,老师用 GRPO 的思路设计学习计划:
分组:把学生分为 A、B、C 三组,每组用不同学习方法:
A组:题海战术
B组:错题分析
C组:概念推导
相对比较:
每周考试后,对比各组平均分。比如 B 组得分最高,说明“错题分析”方法更有效。
策略优化:
让 B 组分享经验,但不强制其他组完全照搬(避免学得太快反而混乱)。
A、C 组参考 B 组的方法,适当调整自己的策略(比如题海战术中加入错题分析)。
结果:
整体班级成绩提升,且各组保持自己的特色(稳定性)。

4 大语言模型值得相信吗

things that occur very frequently in the internet are probably more likely to be remembered correctly. The output of the LLM is just a vague recollection of internet documents

4.1 AI hallucinations幻觉

给模型输入一段没见过的东西,它会沿着继续预测下去,本质上是在概率性的前提下进行最佳预测。
由于是概率性的,所以在训练集的分布里,并没有"我不知道",只有自信的回答,所以面对及时不知道的事,AI也会给出自信的编造。Even the model knows it doesn’t know, it will not surface that.

The model are not looking it up(查找信息), instead just imitating the answer.

4.1.1 如何确认存在幻觉

  1. 测试大模型是否存在幻觉
    a. 先用大模型A给出一些问答
    b. 用这些问答问待测试的大模型
    c. 如果回答错了,就说明存在幻觉
    在这里插入图片描述

4.1.2 如何解决幻觉

  1. 训练大模型说我不知道
    a. 根据答错的问题,训练它说我不知道
    Through this way, the model learns the association of the knowledge-based refusal to the internal neuron
  2. 联网搜索,把搜索到的知识当作输入一起给模型。
    在这里插入图片描述

4.2 大模型心理学LLM psychology

涌现认知效应 emergent cognitive effect

4.3 大模型的自我认知

大模型实际上没有自我认知,它其实就是基于traning set做best guess,如果没有专门训练过这个问题,那么它可能会说自己的GPT(尽管它不是),但是是网上很多数据是有GPT生成的,导致它认为自己的GPT。
在这里插入图片描述
因此,可以考虑对其进行专门训练,或者hardcode,如下所示
在这里插入图片描述

4.4 大模型的数学能力

为了让大模型有足够的数学能力,它的输入至关重要。举例而言,下面左侧的回答就更差,导致可能模型学不出来。
在这里插入图片描述

4.4.1 Let the model think

因为模型一开始就揭晓了答案,但是前面没有足够的推理过程。模型是采用自回归的方式输出答案的,这就说明模型要在 The answer is 结束时,完成所有的推理和计算,然后给出答案来。如果采用右侧的答案,那么就能通过tokens的输出,先计算中间结果intermediate results,将其存储在working memory中,逐步完成推理和计算,提高其数学能力。
在这里插入图片描述

We should teach the model to spread out the reasoning and computation over the tokens, in other words, the model need tokens to think.

4.4.2 如果强行要求直出结果,可能导致出错

在这里插入图片描述
在这里插入图片描述

4.4.3 Use tools

==use tools instead of allowing the models to do all the calculations in the memory. ==
因为在memory中计算就像人的心算,不一定特别靠谱。
只需要在提示词中增加Use code即可。

4.4.3.1 Use tools to count

举个例子,模型对于计数能力很差,因为这些数其实是离散的多个tokens。
在这里插入图片描述

这里的运算并不是用的模型的心算,而是让模型做了复制粘贴的事(把dots复制到python中),然后写python,最后的结果是由python给出的。这样带来2点好处:

  1. 代码很容易检查运算思路
  2. 避免了模型心算,模型只需要给出解题过程就可以了
4.4.3.2 Use tools to spell

模型拼写能力不强,因为模型只能访问到token,一个token包含多个字符/字母,但是人眼是能够acess每个字符/字母的。
Model is not byte level or character level, but token level.
在这里插入图片描述

如果使用工具,那么模型提供思路+复制粘贴tokens即可,答案由python给出。

4.4.4 为什么模型认为4.11 > 4.9

因为模型回忆起圣经经文了,在经文中先有chapter4.9,然后才有4.11,所以它认为4.9 > 4.11。
在这里插入图片描述

Deepseek

Reasoning oriented RL using GRPO

其中的奖励函数没有用人工的,而是纯deterministic的。A rule-based reward system

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/895610.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DeepSeek R1 本地部署和知识库搭建

一、本地部署 DeepSeek-R1&#xff0c;是幻方量化旗下AI公司深度求索&#xff08;DeepSeek&#xff09;研发的推理模型 。DeepSeek-R1采用强化学习进行后训练&#xff0c;旨在提升推理能力&#xff0c;尤其擅长数学、代码和自然语言推理等复杂任务 。 使用DeepSeek R1, 可以大大…

基于大数据的全国热门旅游景点数据分析系统的设计与实现

【大数据】基于大数据的全国热门旅游景点数据分析系统的设计与实现&#xff08;完整系统源码开发笔记详细部署教程&#xff09;✅ 目录 一、项目简介二、项目界面展示三、项目视频展示 一、项目简介 该系统主要包括登录注册、系统首页、图表分析、数据管理和个人信息五大功能模…

李宏毅机器学习笔记:【6.Optimization、Adaptive Learning Rate】

Optimization 1.Adaptive Learning Rate2.不同的参数需要不同的学习率3.Root Mean Square4.RMSProp5.Adam6.learning rate scheduling7.warm up总结 critical point不一定是你在训练一个network时候遇到的最大的障碍。 1.Adaptive Learning Rate 也就是我们要给每个参数不同的…

Task03:Ollama API 的使用

Ollama API 使用指南 简介 Ollama 提供了强大的 REST API&#xff0c;使开发者能够方便地与大语言模型进行交互。通过 Ollama API&#xff0c;用户可以发送请求并接收模型生成的响应&#xff0c;应用于自然语言处理、文本生成等任务。本文将详细介绍生成补全、对话生成的基本…

我用AI做数据分析之四种堆叠聚合模型的比较

我用AI做数据分析之四种堆叠聚合模型的比较 这里AI数据分析不仅仅是指AI生成代码的能力&#xff0c;我想是测试AI数据分析方面的四个能力&#xff0c;理解人类指令的能力、撰写代码的能力、执行代码的能力和解释结果的能力。如果这四个能力都达到了相当的水准&#xff0c;才可…

DC-6靶机渗透测试全过程

目录 前期准备 一、渗透测试 1.IP地址查询 2.端口信息搜寻 3.网页信息搜集 wappalyzer WPScan 反弹shell graham用户 反弹出jens的shell nmap提权 二、总结 前期准备 攻击机&#xff1a; kali windows11 靶机&#xff1a;DC-6靶机&#xff08;调至NAT模式&#xff0…

[操作系统] 基础IO:系统文件I/O

在 Linux 操作系统中&#xff0c;文件 I/O&#xff08;输入/输出&#xff09;是程序与文件系统交互的基础。理解文件 I/O 的工作原理对于编写高效、可靠的程序至关重要。本文将深入探讨系统文件 I/O 的机制。 一种传递标志位的方法 在 Linux 中&#xff0c;文件的打开操作通常…

3.8 AI驱动的市场调研革命:从数据采集到竞品策略生成的闭环实践指南

AI驱动的市场调研革命:从数据采集到竞品策略生成的闭环实践指南 引言:智能时代的高效市场洞察 Forrester研究显示,使用AI辅助市场调研可使数据采集效率提升8倍,策略生成速度加快4倍。本文以GitHub Sentinel、LanguageMentor为案例,揭示如何构建AI增强型市场分析体系,实现…

AF3 MmcifObject类解读

AlphaFold3 中 MmcifObject类 是 解析 mmCIF 文件的核心数据结构,用于存储解析后的蛋白质结构信息,包含PDB 头部信息、Biopython 解析的结构、链序列信息等。 下面代码包含 Monomer 、AtomSite、ResiduePosition、ResidueAtPosition、 MmcifObject以及ParsingResult数据类的…

网络安全 “免疫力”:从人体免疫系统看防御策略

在当今数字化时代&#xff0c;网络安全已变得至关重要。每天&#xff0c;我们的网络系统都面临着来自各方的威胁&#xff0c;就像人体时刻暴露在各种病原体中一样。今天&#xff0c;我们就来聊聊网络安全与人体免疫系统的奇妙联系&#xff0c;看看从免疫系统中能汲取哪些构建强…

滚动弹幕案例

滚动弹幕案例 一、需求 1.页面上漂浮字体大小不一、颜色不一&#xff0c;从左向右滚动的弹幕&#xff1b; 2.底部中间有一个发送功能&#xff0c;可以发送新的弹幕&#xff1b; 3.底部的发送部分可以向下收起和弹出。 二、html <div class"container"><…

【wiki知识库】08.添加用户登录功能--后端SpringBoot部分

目录 一、今日目标? 二、SpringBoot后端实现 2.1 新增UserLoginParam 2.2 修改UserController 2.3 UserServiceImpl代码 2.4 创建用户上下文工具类 2.5?通过token校验用户&#xff08;重要&#xff09; 2.6 创建WebMvcConfig 2.7 用户权限校验拦截器 一、今日目标 上…

AI大模型的技术突破与传媒行业变革

性能与成本&#xff1a;AI大模型的“双轮驱动” 过去几年&#xff0c;AI大模型的发展经历了从实验室到产业化的关键转折。2025年初&#xff0c;以DeepSeek R1为代表的模型在数学推理、代码生成等任务中表现超越国际头部产品&#xff0c;而训练成本仅为传统模型的几十分之一。这…

C++字符串处理指南:从基础操作到性能优化——基于std::string的全面解析

博主将从C标准库中的 std::string 出发&#xff0c;详细探讨字符串的处理方法&#xff0c;涵盖常见操作、性能优化和实际应用场景。以下内容将围绕std::string 的使用展开&#xff0c;结合代码示例进行说明。 一、std::string 的基本操作 1.1 创建与初始化 std::string 提供了…

3.【线性代数】——矩阵乘法和逆矩阵

三 矩阵乘法和逆矩阵 1. 矩阵乘法1.1 常规方法1.2 列向量组合1.3 行向量组合1.4 单行和单列的乘积和1.5 块乘法 2. 逆矩阵2.1 逆矩阵的定义2.2 奇异矩阵2.3 Gauss-Jordan 求逆矩阵2.3.1 求逆矩阵 ⟺ \Longleftrightarrow ⟺解方程组2.3.2 Gauss-Jordan求逆矩阵 1. 矩阵乘法 1.…

深入了解 Oracle 正则表达式

目录 深入了解 Oracle 正则表达式一、正则表达式基础概念二、Oracle 正则表达式语法&#xff08;一&#xff09;字符类&#xff08;二&#xff09;重复限定符&#xff08;三&#xff09;边界匹配符&#xff08;四&#xff09;分组和捕获 三、Oracle 正则表达式函数&#xff08;…

用python写一个聊天室程序

下面是一个简单的基于Socket的Python聊天室程序示例&#xff0c;包括服务器端和客户端&#xff1a; 服务器端代码&#xff1a; import socket import threadingdef handle_client(client, address):print(f"New connection from {address}")while True:msg client…

在nodejs中使用RabbitMQ(六)sharding消息分片

RabbitMQ 的分片插件&#xff08;rabbitmq_sharding&#xff09;允许将消息分布到多个队列中&#xff0c;这在消息量很大或处理速度要求高的情况下非常有用。分片功能通过将消息拆分到多个队列中来平衡负载&#xff0c;从而提升消息处理的吞吐量和可靠性。它能够在多个队列之间…

1.7 AI智能体实战指南:从单任务自动化到企业级智能体集群架构

AI智能体实战指南:从单任务自动化到企业级智能体集群架构 一、智能体技术演进:从脚本工具到认知革命的跨越 1.1 三代智能体能力对比 能力维度第一代(规则驱动)第二代(机器学习)第三代(LLM驱动)任务理解固定模式匹配统计模式识别语义推理与逻辑链分解环境适应需人工重写…

Github 2025-02-14 Java开源项目日报 Top10

根据Github Trendings的统计,今日(2025-02-14统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Java项目10C#项目1Guava: 谷歌Java核心库 创建周期:3725 天开发语言:Java协议类型:Apache License 2.0Star数量:49867 个Fork数量:10822 次…