神农架网站建设/百度网络科技有限公司

神农架网站建设,百度网络科技有限公司,做游戏奖金不被发现网站,重庆品牌型网站建设多少钱大语言模型入门 1 大语言模型步骤1.1 pre-training 预训练1.1.1 从网上爬数据1.1.2 tokenization1.1.2.1 tokenization using byte pair encoding 1.3 预训练1.3.1 context1.3.2 training1.3.3 输出 1.2 post-training1:SFT监督微调1.2.1 token 1.3 强化学习1.3.1 基…

大语言模型入门

  • 1 大语言模型步骤
    • 1.1 pre-training 预训练
      • 1.1.1 从网上爬数据
      • 1.1.2 tokenization
        • 1.1.2.1 tokenization using byte pair encoding
    • 1.3 预训练
      • 1.3.1 context
      • 1.3.2 training
      • 1.3.3 输出
    • 1.2 post-training1:SFT监督微调
      • 1.2.1 token
    • 1.3 强化学习
      • 1.3.1 基于奖励函数进行试错
      • 1.3.2 人类反馈强化学习
      • PPO
      • GRPO
  • 4 大语言模型值得相信吗
    • 4.1 AI hallucinations幻觉
      • 4.1.1 如何确认存在幻觉
      • 4.1.2 如何解决幻觉
    • 4.2 大模型心理学LLM psychology
    • 4.3 大模型的自我认知
    • 4.4 大模型的数学能力
      • 4.4.1 Let the model think
      • 4.4.2 如果强行要求直出结果,可能导致出错
      • 4.4.3 Use tools
        • 4.4.3.1 Use tools to count
        • 4.4.3.2 Use tools to spell
      • 4.4.4 为什么模型认为4.11 > 4.9
  • Deepseek
    • Reasoning oriented RL using GRPO

1 大语言模型步骤

1.1 pre-training 预训练

1.1.1 从网上爬数据

download and preprocess the internet, including url filtering(like, removing racist/adult websites), PII removal(personal identifiable information should be removed, 豆包被爆输出个人信息,所以是这一点没有做好)
数据规模大概是44TB左右,不大,甚至一个大点的移动硬盘就可以装下。

1.1.2 tokenization

tokenization = context -> symbols/a sequence of tokens

  1. 文字编码的本质就是把字或字母转成一个有限表示的序列,比如a-z可以用1-26来表示。
  2. 这个序列不希望太长,要不然变相挤占了输入资源
1.1.2.1 tokenization using byte pair encoding

找到常出现的编码对,比如(125 67),就把它合成为一个新编码符号(比如301),然后再看有没有新的编码对,比如(301 786),那就再把这个合成新的。这样做decrease the length and increase the symbol size, in practice symbol size turns out to be 100k。
在这里插入图片描述

44TB -> 15 trillion万亿 token sequences

1.3 预训练

1.3.1 context

选取任意长度的token窗口arbitrary window lengths of tokens, but in practice the maximum length is often set as 16k/8k/4k

1.3.2 training

模型输出每个token的概率,和真值算loss

1.3.3 输出

做完预训练的模型一般称为base,base一般不会被release出来。
如果给base输入一句话,它不会回答,只会续写。
如果想要prompt,可以参考如下,因为模型具有in-context learning ability
在这里插入图片描述
在这里插入图片描述

这个base model更像是internet document simulator

1.2 post-training1:SFT监督微调

  1. The pre-training stage is to sample documents, the post-training stage is to give answers to questions.
  2. The pre-training relies on the online documents, but the post-training stage totally throws them out and use datasets of human-labeling conversations.
  3. Knowledge in the parameters is the vague recollection (like something people read 1 month age); while knowledge in the context is the working memory (like something people read just now),因此在做prompt时,可以把尽可能充分的信息给到模型去推理,working memory可以直接访问,更加准确。
  4. The pre-training stage takes 3 months while post-training 3 hours, because the datasets of conversations are much smaller.
  5. This stage is much computationally cheaper.
  6. 这个阶段要学会和人类互动,也要拒绝不合理的要求(比如如何黑进别人的电脑)
  7. 这个阶段不会也无法覆盖所有的可能的问题,但是通过这种示例,模型能够学到这样的统计学模式statistical pattern,从而在推理时遇到没被训练过的问题,也能给予回答。
  8. 从LLM获得的回答其实是类似人类标注员的回答,或者说LLM公司编写的回答规范的回答。You are not talking to a magical AI, instead an average labeler.
  9. 为了克服大模型幻觉,可以使大模型具备联网搜索能力,然后根据这些信息组织答案,这个方法也要添加在训练集中。
    在这里插入图片描述

1.2.1 token

因为输入的是对话,所以需要对对话进行处理,增加虚拟独白部分,分别在最前和最后,而且要指明是user还是assistant。
在这里插入图片描述

在推理时,输入到<|im_start|>assistant<|im_sep|>,后面的由模型补充就得到了答案。

1.3 强化学习

chatgpt-4o are mostly SFT models, but deepseek RL models. So deepseek can present thinking process.
RL is a powerful way to learn. 在AlphaGo的训练中,采用了强化学习的ALphaGo获得了更强大的性能。Models can’t fundamentally go beyond a human player if it just imitates the human players. RL is not restrained by the human performance.
在这里插入图片描述

1.3.1 基于奖励函数进行试错

给模型一个问题,让它产生非常多次的回答,然后选出最好的回答(最精简,正确),然后拿进去训练。
SFT更像是RL的初始化过程,教模型如何组织一个答案,但是模型学会组织好答案是需要依靠强化学习的。
在这里插入图片描述

在LLM中,pre-training和SFT已经标准化了,但是RL仍是在早期阶段。This stage is early and nascent. 所以很多公司并不公开讨论这些细节。

因此,deepseek能够公开其RL方法,是对该领域的重要贡献。This paper reinvigorated the interest of RL in LLMs, and gave the necessary details to reproduce the results.

  1. 论文名称:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
  2. 论文链接:https://arxiv.org/abs/2501.12948

下图表示,随着RL训练,模型use more tokens to achieve higher accuracy.
在这里插入图片描述
因为随着模型训练,它在不停try out different ideas,甚至可能“顿悟”aha moment。这些思考过程导致了模型回答长度变长,以及deepseek的think的过程。
在这里插入图片描述

1.3.2 人类反馈强化学习

上述都在说的是易于verify的任务,可以通过自动化的评判标准进行评价,从而引导模型学习,但是对于unverified task, like creative writing tasks,就无法依赖自动化的评价工具了,需要人类进行评价和反馈。

  1. 人类反馈的是排序,而不是分数。因为针对某些任务(比如讲一个笑话),很难给它打分,因此会让模型针对同一个问题生成多个任务,然后人类对其进行排序。
  2. 如果让模型每生成一个答案,就拉一组评审员来评估,是很naive和cost的,因此,通过评审员训练一个模型,让模型学会如何给打分,分数和人类排序是正相关的。The reward model is a totally seperate neural net, is a simulator of human preferences.

PPO

proximal policy opt
最大化长期奖励,但是通过clip保证不会偏离当前策略太远。

举个例子:智能家居系统
有一个智能家居系统,其中的恒温器需要根据室内外温度、能源价格等因素来调整设置,以达到舒适与节能的平衡。这个恒温器就是我们的“智能体”,它的目标是通过调节温度来最大化长期奖励(比如节省能源费用和保持舒适)。
场景设定:
状态:当前室内温度、室外温度、时间等。
动作:将恒温器设置为 20°C、21°C 或 22°C。
奖励:根据能源消耗和舒适度打分,比如:
如果温度太低或太高,奖励较低(因为不舒服)。
如果温度适中且能源消耗少,奖励较高。
恒温器需要通过不断尝试不同的设置来找到最优策略。PPO 的作用就是帮助它在学习过程中逐步优化策略,避免“走得太远”而犯错。

GRPO

group relative policy opt
一种用于大模型的策略优化算法,通过分组比较,动态调整学习策略,使训练更高效和稳定。因为之前是采用PPO算法,PPO会直接冲着奖励最高的方向去学习,无法平衡风险。

举个例子:班级小组学习
假设一个班级要提升数学成绩,老师用 GRPO 的思路设计学习计划:
分组:把学生分为 A、B、C 三组,每组用不同学习方法:
A组:题海战术
B组:错题分析
C组:概念推导
相对比较:
每周考试后,对比各组平均分。比如 B 组得分最高,说明“错题分析”方法更有效。
策略优化:
让 B 组分享经验,但不强制其他组完全照搬(避免学得太快反而混乱)。
A、C 组参考 B 组的方法,适当调整自己的策略(比如题海战术中加入错题分析)。
结果:
整体班级成绩提升,且各组保持自己的特色(稳定性)。

4 大语言模型值得相信吗

things that occur very frequently in the internet are probably more likely to be remembered correctly. The output of the LLM is just a vague recollection of internet documents

4.1 AI hallucinations幻觉

给模型输入一段没见过的东西,它会沿着继续预测下去,本质上是在概率性的前提下进行最佳预测。
由于是概率性的,所以在训练集的分布里,并没有"我不知道",只有自信的回答,所以面对及时不知道的事,AI也会给出自信的编造。Even the model knows it doesn’t know, it will not surface that.

The model are not looking it up(查找信息), instead just imitating the answer.

4.1.1 如何确认存在幻觉

  1. 测试大模型是否存在幻觉
    a. 先用大模型A给出一些问答
    b. 用这些问答问待测试的大模型
    c. 如果回答错了,就说明存在幻觉
    在这里插入图片描述

4.1.2 如何解决幻觉

  1. 训练大模型说我不知道
    a. 根据答错的问题,训练它说我不知道
    Through this way, the model learns the association of the knowledge-based refusal to the internal neuron
  2. 联网搜索,把搜索到的知识当作输入一起给模型。
    在这里插入图片描述

4.2 大模型心理学LLM psychology

涌现认知效应 emergent cognitive effect

4.3 大模型的自我认知

大模型实际上没有自我认知,它其实就是基于traning set做best guess,如果没有专门训练过这个问题,那么它可能会说自己的GPT(尽管它不是),但是是网上很多数据是有GPT生成的,导致它认为自己的GPT。
在这里插入图片描述
因此,可以考虑对其进行专门训练,或者hardcode,如下所示
在这里插入图片描述

4.4 大模型的数学能力

为了让大模型有足够的数学能力,它的输入至关重要。举例而言,下面左侧的回答就更差,导致可能模型学不出来。
在这里插入图片描述

4.4.1 Let the model think

因为模型一开始就揭晓了答案,但是前面没有足够的推理过程。模型是采用自回归的方式输出答案的,这就说明模型要在 The answer is 结束时,完成所有的推理和计算,然后给出答案来。如果采用右侧的答案,那么就能通过tokens的输出,先计算中间结果intermediate results,将其存储在working memory中,逐步完成推理和计算,提高其数学能力。
在这里插入图片描述

We should teach the model to spread out the reasoning and computation over the tokens, in other words, the model need tokens to think.

4.4.2 如果强行要求直出结果,可能导致出错

在这里插入图片描述
在这里插入图片描述

4.4.3 Use tools

==use tools instead of allowing the models to do all the calculations in the memory. ==
因为在memory中计算就像人的心算,不一定特别靠谱。
只需要在提示词中增加Use code即可。

4.4.3.1 Use tools to count

举个例子,模型对于计数能力很差,因为这些数其实是离散的多个tokens。
在这里插入图片描述

这里的运算并不是用的模型的心算,而是让模型做了复制粘贴的事(把dots复制到python中),然后写python,最后的结果是由python给出的。这样带来2点好处:

  1. 代码很容易检查运算思路
  2. 避免了模型心算,模型只需要给出解题过程就可以了
4.4.3.2 Use tools to spell

模型拼写能力不强,因为模型只能访问到token,一个token包含多个字符/字母,但是人眼是能够acess每个字符/字母的。
Model is not byte level or character level, but token level.
在这里插入图片描述

如果使用工具,那么模型提供思路+复制粘贴tokens即可,答案由python给出。

4.4.4 为什么模型认为4.11 > 4.9

因为模型回忆起圣经经文了,在经文中先有chapter4.9,然后才有4.11,所以它认为4.9 > 4.11。
在这里插入图片描述

Deepseek

Reasoning oriented RL using GRPO

其中的奖励函数没有用人工的,而是纯deterministic的。A rule-based reward system

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/895610.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DeepSeek R1 本地部署和知识库搭建

一、本地部署 DeepSeek-R1&#xff0c;是幻方量化旗下AI公司深度求索&#xff08;DeepSeek&#xff09;研发的推理模型 。DeepSeek-R1采用强化学习进行后训练&#xff0c;旨在提升推理能力&#xff0c;尤其擅长数学、代码和自然语言推理等复杂任务 。 使用DeepSeek R1, 可以大大…

基于大数据的全国热门旅游景点数据分析系统的设计与实现

【大数据】基于大数据的全国热门旅游景点数据分析系统的设计与实现&#xff08;完整系统源码开发笔记详细部署教程&#xff09;✅ 目录 一、项目简介二、项目界面展示三、项目视频展示 一、项目简介 该系统主要包括登录注册、系统首页、图表分析、数据管理和个人信息五大功能模…

李宏毅机器学习笔记:【6.Optimization、Adaptive Learning Rate】

Optimization 1.Adaptive Learning Rate2.不同的参数需要不同的学习率3.Root Mean Square4.RMSProp5.Adam6.learning rate scheduling7.warm up总结 critical point不一定是你在训练一个network时候遇到的最大的障碍。 1.Adaptive Learning Rate 也就是我们要给每个参数不同的…

Task03:Ollama API 的使用

Ollama API 使用指南 简介 Ollama 提供了强大的 REST API&#xff0c;使开发者能够方便地与大语言模型进行交互。通过 Ollama API&#xff0c;用户可以发送请求并接收模型生成的响应&#xff0c;应用于自然语言处理、文本生成等任务。本文将详细介绍生成补全、对话生成的基本…

我用AI做数据分析之四种堆叠聚合模型的比较

我用AI做数据分析之四种堆叠聚合模型的比较 这里AI数据分析不仅仅是指AI生成代码的能力&#xff0c;我想是测试AI数据分析方面的四个能力&#xff0c;理解人类指令的能力、撰写代码的能力、执行代码的能力和解释结果的能力。如果这四个能力都达到了相当的水准&#xff0c;才可…

DC-6靶机渗透测试全过程

目录 前期准备 一、渗透测试 1.IP地址查询 2.端口信息搜寻 3.网页信息搜集 wappalyzer WPScan 反弹shell graham用户 反弹出jens的shell nmap提权 二、总结 前期准备 攻击机&#xff1a; kali windows11 靶机&#xff1a;DC-6靶机&#xff08;调至NAT模式&#xff0…

[操作系统] 基础IO:系统文件I/O

在 Linux 操作系统中&#xff0c;文件 I/O&#xff08;输入/输出&#xff09;是程序与文件系统交互的基础。理解文件 I/O 的工作原理对于编写高效、可靠的程序至关重要。本文将深入探讨系统文件 I/O 的机制。 一种传递标志位的方法 在 Linux 中&#xff0c;文件的打开操作通常…

滚动弹幕案例

滚动弹幕案例 一、需求 1.页面上漂浮字体大小不一、颜色不一&#xff0c;从左向右滚动的弹幕&#xff1b; 2.底部中间有一个发送功能&#xff0c;可以发送新的弹幕&#xff1b; 3.底部的发送部分可以向下收起和弹出。 二、html <div class"container"><…

【wiki知识库】08.添加用户登录功能--后端SpringBoot部分

目录 一、今日目标? 二、SpringBoot后端实现 2.1 新增UserLoginParam 2.2 修改UserController 2.3 UserServiceImpl代码 2.4 创建用户上下文工具类 2.5?通过token校验用户&#xff08;重要&#xff09; 2.6 创建WebMvcConfig 2.7 用户权限校验拦截器 一、今日目标 上…

在nodejs中使用RabbitMQ(六)sharding消息分片

RabbitMQ 的分片插件&#xff08;rabbitmq_sharding&#xff09;允许将消息分布到多个队列中&#xff0c;这在消息量很大或处理速度要求高的情况下非常有用。分片功能通过将消息拆分到多个队列中来平衡负载&#xff0c;从而提升消息处理的吞吐量和可靠性。它能够在多个队列之间…

【D2】神经网络初步学习

总结&#xff1a;学习了 PyTorch 中的基本概念和常用功能&#xff0c;张量&#xff08;Tensor&#xff09;的操作、自动微分&#xff08;Autograd&#xff09;、正向传播、反向传播。通过了解认识LeNet 模型&#xff0c;定义神经网络类&#xff0c;熟悉卷积神经网络的基本结构和…

DeepSeek处理自有业务的案例:让AI给你写一份小众编辑器(EverEdit)的语法着色文件

1 DeepSeek处理自有业务的案例&#xff1a;让AI给你写一份小众编辑器(EverEdit)的语法着色文件 1.1 背景 AI能力再强&#xff0c;如果不能在企业的自有业务上产生助益&#xff0c;那基本也是一无是处。将企业的自有业务上传到线上训练&#xff0c;那是脑子进水的做法&#xff…

深入浅出Java反射:掌握动态编程的艺术

小程一言反射何为反射反射核心类反射的基本使用获取Class对象创建对象调用方法访问字段 示例程序应用场景优缺点分析优点缺点 注意 再深入一些反射与泛型反射与注解反射与动态代理反射与类加载器 结语 小程一言 本专栏是对Java知识点的总结。在学习Java的过程中&#xff0c;学习…

【算法与数据结构】并查集详解+题目

目录 一&#xff0c;什么是并查集 二&#xff0c;并查集的结构 三&#xff0c;并查集的代码实现 1&#xff0c;并查集的大致结构和初始化 2&#xff0c;find操作 3&#xff0c;Union操作 4&#xff0c;优化 小结&#xff1a; 四&#xff0c;并查集的应用场景 省份…

C语言简单练习题

文章目录 练习题一、计算n的阶乘bool类型 二、计算1!2!3!...10!三、计算数组arr中的元素个数二分法查找 四、动态打印字符Sleep()ms延时函数system("cls")清屏函数 五、模拟用户登录strcmp()函数 六、猜数字小游戏产生一个随机数randsrandRAND_MAX时间戳time() 示例 …

ShenNiusModularity项目源码学习(8:数据库操作)

ShenNiusModularity项目使用SqlSugar操作数据库。在ShenNius.Repository项目中定义了ServiceCollectionExtensions.AddSqlsugarSetup函数注册SqlSugar服务&#xff0c;并在ShenNius.Admin.API项目的ShenniusAdminApiModule.OnConfigureServices函数中调用&#xff0c;SqlSugar所…

MATLAB图像处理:图像特征概念及提取方法HOG、SIFT

图像特征是计算机视觉中用于描述图像内容的关键信息&#xff0c;其提取质量直接影响后续的目标检测、分类和匹配等任务性能。本文将系统解析 全局与局部特征的核心概念&#xff0c;深入讲解 HOG&#xff08;方向梯度直方图&#xff09;与SIFT&#xff08;尺度不变特征变换&…

小白win10安装并配置yt-dlp

需要yt-dlp和ffmpeg 注意存放路径最好都是全英文 win10安装并配置yt-dlp 一、下载1.下载yt-dlp2. fffmpeg下载 二、配置环境三、cmd操作四、yt-dlp下视频操作 一、下载 1.下载yt-dlp yt-dlp地址 找到win的压缩包点下载&#xff0c;并解压 2. fffmpeg下载 ffmpeg官方下载 …

【技术解析】MultiPatchFormer:多尺度时间序列预测的全新突破

今天给我大家带来一篇最新的时间序列预测论文——MultiPatchFormer。这篇论文提出了一种基于Transformer的创新模型&#xff0c;旨在解决时间序列预测中的关键挑战&#xff0c;特别是在处理多尺度时间依赖性和复杂通道间相关性时的难题。MultiPatchFormer通过引入一维卷积技术&…

145,【5】 buuctf web [GWCTF 2019]mypassword

进入靶场 修改了url后才到了注册页面 注测后再登录 查看源码 都点进去看看 有个反馈页面 再查看源码 又有收获 // 检查$feedback是否为数组 if (is_array($feedback)) {// 如果是数组&#xff0c;弹出提示框提示反馈不合法echo "<script>alert(反馈不合法);<…