AI杂谈(一)

在这里插入图片描述

名词解释

  • LLM

大语言模型(Large Language Model,LLM)是一种基于深度学习的自然语言处理模型,旨在理解和生成自然语言文本。这类模型通常由数亿到数千亿个参数构成,能够处理复杂的语言任务,如文本生成、翻译、问答、摘要等。

  • ChatGPT

全称为(Chat Generative Pre-trained Transformer)

Generative:生成式。

Pre-trained:预训练,大规模的文本数据上进行训练,以学习语言的结构和语义。

Transformer:大语言模型的核心技术是Transformer架构,这种架构通过自注意力(self-attention)机制来捕捉文本中词语之间的关系。比如GPT系列模型就是通过自回归(Auto-regressive)的方式,通过逐步生成文本,每次根据已经生成的部分来预测下一个词,直到生成完整的句子或段落。

  • 规模化法则(Scaling Law)

也称尺度定律,是被业界认为是大模型预训练第一性原理,也是在机器学习领域,特别是对于大语言模型而言,模型性能与其规模(如参数数量)、训练数据集大小以及用于训练的计算资源之间存在的一种可预测的关系。

就是说随着模型规模的增大,每增加相同数量的参数或计算资源,可以得到更好的效果,但是获得的性能提升逐渐减少的现象。从一张卡加到 10 张卡时,可以达到 9.5 张卡的价值,但从 10 万张卡加到 100 万张卡,也许只能达到 30 万张卡的价值。

过去几年,预训练Scaling Law推动大模型依赖参数和数据扩张,但逐渐触及瓶颈。24年9月,OpenAI发布的o1模型开创性地提出1:1:1资源分配范式(预训练、后训练和推理)和新Scaling Law:通过强化学习提升微调和推理计算时间,来提升模型性能,正式开启了大模型的后训练时代。24年底,OpenAI发布了o3模型,进一步验证了这一范式的有效性。这个新Scaling Law在成为大模型发展的重点。

但其实,目前能够有足够多的资源和数据去触摸 Scaling Law 天花板的公司,全世界没几家。

ChatGPT

工作原理

我们可以简单理解为“文字接龙”。

例如:我今天去超市买了苹果和__。
A:香蕉 B:太阳 C:螺丝刀 D:酸奶

以上四个答案,我们按照正确的排序是:香蕉>酸奶>螺丝刀>太阳。

因为“注意力机制”,对语言进行压缩和特征提取。这里面重要的词语有超市和苹果,它理解到在购物的上下文中,接下来可能会提到其他水果。

那么AI是如何知道苹果和香蕉相似度更高呢?我们假设用数字进行标记,取值范围是 -1 到 1:

  • 对于“苹果”来说:“水果”这个特征对应的数字是 1;“味道好”这个特征对应的数字可能是 0.8;“质地”这个特征对应的数字可能是 0.8。 [1, 0.8, 0.8]
  • 对于“香蕉”来说:“水果”这个特征对应的数字是 1;“味道好”这个特征对应的数字可能是 0.7;“质地”这个特征对应的数字可能是 0.3。 [1, 0.7, 0.3]

实际的维度和精度复杂得多,这里只是示意。

在这里插入图片描述
训练过程中,模型将每个词转换为一个高维空间中的向量(即词向量)。相似的词在这个向量空间中会被映射到相近的位置。比如,“苹果”和“香蕉”这两个词的向量可能会非常接近,因为它们都是水果,并且在许多上下文中可以互换使用。
另外,模型不仅仅考虑单个词的相似度,还会分析整个句子的上下文。通过上下文,模型能够更好地理解某些词在特定情况下的相关性。例如,在讨论“水果”时,模型会更倾向于选择与“水果”相关的词,如“苹果”、“香蕉”、“橙子”等。

其实OpenAI早在2018年6月就发布ChatGPT底层GPT技术的初代版本,但是直到22年11月底发布gpt3.5才引起大波澜。原因就是早期数据规模小,实际效果并不理想。后面OpenAI加大了向量的维度,训练数据,大力出奇迹般的让大模型量变产生质变,或者说是涌现。而为什么会这样,目前依旧无法解释。

比如,我们常用的翻译功能,以前翻译感觉它不能理解句子中某些词语的意思,但是在gpt3.5后,明显感觉听的懂人话。当模型理解你的语义时,就能更好的提供你相应的答案。

多模态

我们输入给gpt的文字,每个词(Token)都会被转换成一个个的向量(Embedding)。然后输入Transformer层处理,从而理解我们输入文本的上下文和语义。

多模态就是可以接收来自不同模态的数据输入,不局限只能输入输出文字,比如可以输入语音,图片等。例如图片,就是通过卷积神经网络提取图片里的特征信息,转换为向量信息。

多模态大模型很大的提高了沟通的效率。代表模型OpenAI的gpt-4o。

推理

可以像人一样,会花更多时间思考问题,尝试不同的策略,甚至能意识到自己的错误。代表模型OpenAI o1,擅长处理科学、编码、数学和类似领域的复杂问题,这些增强的推理功能可能特别有用。缺点是速度相较gpt-4o速度更慢,费用更高。

问题

  1. 幻觉
    如果你经常使用ChatGPT等生成式AI工具,会发现回答会很啰嗦,说一些车轱辘话,有时还有胡言乱语(幻觉)。回答的答案对不对不好说,但是回答的速度很快,文字很通顺,看着很有逻辑和道理。

    知道上面的原理,你就可以明白其中的原因。“文字接龙”的过程中,就是通过概率寻找相似性的过程,免不了就命中了较低概率的词语。

    所以它更擅长的翻译,文本生成类的工作。翻译就是将一种语言文字的意义用另一种语言文字表达出来的过程。而词向量就包含这些特征,可以找出一个词语在另一种语言的相似表达。

    不擅长的就是数学题,因为解数学题的过程不是线性的,例如2x7-3x4,先乘除后加减,按顺序计算肯定错的。当然实际上这么简单的题,gpt还是会的。毕竟在千亿万亿的数据量面前,你能碰见的问题,其实它都早已有了答案。同时通过不断的算法优化,也能解决部分问题。

  2. 失忆
    记忆说的就是上下文的token数量,一个token大约是 0.75 个英语单词或半个汉字(不同模型有所不同)。目前大模型上下文都是有限的,gpt3.5时是4096,到gpt-4o时已经到了128K,注意这个数值包含输入和输出。当超过上限时,就会有一部分信息丢失掉。比如一开始你告诉gpt你的年龄是20,聊了很久后,你问它你的年龄,它会不知道。大模型的api使用费用也是通过消耗token的数量计算的。

如今解决此类“失忆”问题,目前常见的是可以通过RAG技术。还有就是技术的迭代突破:

  • 25年1月15日MiniMax发布并开源了新模型MiniMax-01。技术报告中透露了MiniMax基础大模型的大胆创新:一是MoE+线性注意力机制(Linear Attention)的架构,二是上下文窗口可以达到100万个token,并且在推理期间以可承受的成本外推到400万个token。

  • Doubao-1.5-pro 使用稀疏 MoE 架构。在预训练阶段,仅用较小参数激活的 MoE 模型,性能即可超过 Llama-3.1-405B 等超大稠密预训练模型。团队通过对稀疏度 Scaling Law 的研究,确定了性能和效率比较平衡的稀疏比例,并根据 MoE Scaling Law 确定了小参数量激活的模型即可达到世界一流模型的性能

使用技巧

  • 复杂的要求或问题,分步骤去解决,让gpt给出每一步的步骤及解释。这样它会按步骤输出,这个过程它通过更多的上下文信息,更容易接到正确的答案。

  • 给正确的答案格式示例,强化引导输出的结果。

    在这里插入图片描述
    如果我接着这段上下文一直提问,回答的格式或许都会是xxx可以翻译为xxx。比如我希望它直接回答出答案,不要加其他内容。

    在这里插入图片描述
    当有了上下文中我需要的正确的答案格式时,gpt会参考这些回答,保持答案符合要求。

    所以在做翻译功能时,我会给他一个json格式的返回结果或是markdown表格当作示例,这样在翻译时,它就会同样返回json格式数据,格式统一,就方便处理解析数据。同时避免数据的异常造成结果的错误。

    所以,如果你发现使用gpt的过程中,答案的内容已经跑偏了,就及时删除或清空错误的聊天内容。再聊下去也是浪费时间。如果有调整的空间,可以继续让gpt修正。

  • 让gpt扮演角色,提问时描述详细要求。对于国外的模型最好使用英语,一方面可以节省token用量,同时便于模型理解。提示词的公式:提示词 = 角色定位 + 最终目的 + 限定范围 + 输出要求

    例如翻译的时候,我的提示词是:

    Below, I will let you act as a translator. Your goal is to translate any language into English, German, French, Spanish, Italian, Traditional Chinese and Portuguese, and display them in a table. You should translate naturally, fluently, and authentically, using elegant and graceful expressions.

    随着模型的能力不断升级,它会更聪明,所以不需要太过于研究提示词的技巧,但是表达清晰你的需求还是关键。

  • 需要注意的是,尽量不要输入太多内容,会降低生产质量,同时费用也更高。如果问的问题上下文没有关联,可以开启新的聊天进行,减少不必要的上下文干扰。

AI编程

目前AI编程领域的头部产品有Cursor,bolt.new,Copilot,V0等,各有特点。最近字节也推出了Trea。

用好AI编程工具需要具备:

  • 准确的描述你的需求。
  • 将复杂问题拆解的架构能力。
  • 有一定的编程能力,可以分辨生成的代码的质量,避免盲目接受。
  • 调试能力,快速定位问题,独立或者借助AI完成。

因此目前对于专业的程序员可以提高开发效率;对于非专业的可以完成简单原型,面对复杂任务依赖AI还是不好完成,费时费力。

一些观点

  • 开发软件成本越来越低,但创意更值钱:AI 产品经理将炙手可热!

在 AI 产品经理领域——是软件工程师由于具备技术背景,对 AI 的理解和接受速度更快,而许多产品经理则相对缓慢。即使在今天,大多数公司都难以找到既懂产品开发又懂 AI 的人才,我预计这一短缺还会继续加剧。
AI 产品经理需要与传统软件产品经理不同的一组技能,包括:

  • AI 技术能力。 PM 需要了解从技术角度看可以构建哪些产品,并且理解 AI 项目的生命周期——例如数据收集、模型构建、监测和维护。
  • 迭代式开发。 由于 AI 开发相比传统软件更加迭代,在过程中需要更多的方向修正,PM 需要知道如何管理这样的流程。
  • 数据相关技能。 AI 产品通常从数据中学习,也可以被设计成比传统软件产生更丰富数据的形态。
  • 处理不确定性的能力。 由于 AI 的性能难以事先准确预测,PM 需要对这种不确定性保持适应,并且具备应对策略。
  • 持续学习。 AI 技术正在快速发展。与所有致力于充分利用这项技术的人一样,PM 也需要及时跟进行业的最新技术进展、产品创意以及它们在用户生活中的应用方式。

文章观点:AI降低了编程的门槛,所以“开发什么软件”成为了关键。只要拥抱AI,持续学习,无论是PM还是开发,都可以胜任这一工作。

  • AI让知识平权是骗局?

    AI的实际影响:

    1. 加速了用AI和不用AI的不平等。
    2. 加速了愿意花钱使用强模型和不花钱之间的不平等。
    3. 加速了善用AI和不善用AI的不平等。

所以让我们都变成用AI,用强AI,善用AI的人。

参考

  • 深入浅出的chatGPT原理科普
  • 2025 AI展望:Scaling Law新叙事加速AI变革
  • 全文版 | 豆包大模型 1.5 Pro 正式发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/894012.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

fps一些内容添加

1 增强输入要点记录 输入 :输入值的类型 布尔 1d,2d,3d 映射:就是确定按键输入键位,输入类型,和一些触发器(按键方式)修改器(对输出值进行修改) 基本的&am…

为什么应用程序是特定于操作系统的?[计算机原理]

你把WINDOWS程序复制到MAC上使用,会发现无法运行。你可能会说,MAC是arm处理器,而WINDWOS是X86 处理器。但是在2019年,那时候MAC电脑还全是Intel处理器,在同样的X86芯片上,运行MAC和WINDOWS 程序还是无法互相…

2025苹果CMS v10短剧模板源码

文件不到70kb,加载非常快 无配置,没有详情页,上传就可以直接使用 使用教程:上传到网站template目录并解压、进入网站后台选择模板 注意:默认调用ID为1的数据和扩展分类,建议新建站使用 源码下载&#xf…

​ONES 春节假期服务通知

ONES 春节假期服务通知 灵蛇贺岁,瑞气盈门。感谢大家一直以来对 ONES 的认可与支持,祝您春节快乐! 「2025年1月28日 ~ 2025年2月4日」春节假期期间,我们的值班人员将为您提供如下服务 : 紧急问题 若有紧急问…

python:洛伦兹变换

洛伦兹变换(Lorentz transformations)是相对论中的一个重要概念,特别是在讨论时空的变换时非常重要。在四维时空的背景下,洛伦兹变换描述了在不同惯性参考系之间如何变换时间和空间坐标。在狭义相对论中,洛伦兹变换通常…

LangChain:使用表达式语言优化提示词链

在 LangChain 里,LCEL 即 LangChain Expression Language(LangChain 表达式语言),本文为你详细介绍它的定义、作用、优势并举例说明,从简单示例到复杂组合示例,让你快速掌握LCEL表达式语言使用技巧。 定义 …

unity学习20:time相关基础 Time.time 和 Time.deltaTime

目录 1 unity里的几种基本时间 1.1 time 相关测试脚本 1.2 游戏开始到现在所用的时间 Time.time 1.3 时间缩放值 Time.timeScale 1.4 固定时间间隔 Time.fixedDeltaTime 1.5 两次响应时间之间的间隔:Time.deltaTime 1.6 对应测试代码 1.7 需要关注的2个基本…

世上本没有路,只有“场”et“Bravo”

楔子:电气本科“工程电磁场”电气研究生课程“高等电磁场分析”和“电磁兼容”自学”天线“、“通信原理”、“射频电路”、“微波理论”等课程 文章目录 前言零、学习历程一、Maxwells equations1.James Clerk Maxwell2.自由空间中传播的电磁波3.边界条件和有限时域…

electron typescript运行并设置eslint检测

目录 一、初始化package.json 二、安装依赖 三、项目结构 四、配置启动项 五、补充:ts转js别名问题 一、初始化package.json 我的:这里的"main"没太大影响,看后面的步骤。 {"name": "xloda-cloud-ui-pc"…

学习数据结构(3)顺序表

1.动态顺序表的实现 (1)初始化 (2)扩容 (3)头部插入 (4)尾部插入 (5)头部删除 (这里注意要保证有效数据个数不为0) (6&a…

PydanticAI应用实战

PydanticAI 是一个 Python Agent 框架,旨在简化使用生成式 AI 构建生产级应用程序的过程。 它由 Pydantic 团队构建,该团队也开发了 Pydantic —— 一个在许多 Python LLM 生态系统中广泛使用的验证库。PydanticAI 的目标是为生成式 AI 应用开发带来类似 FastAPI 的体验,它基…

deepseek R1的确不错,特别是深度思考模式

deepseek R1的确不错,特别是深度思考模式,每次都能自我反省改进。比如我让 它写文案: 【赛博朋克版程序员新春密码——2025我们来破局】 亲爱的代码骑士们: 当CtrlS的肌肉记忆遇上抢票插件,当Spring Boot的…

macbook安装go语言

通过brew来安装go语言 使用brew命令时,一般都会通过brew search看看有哪些版本 brew search go执行后,返回了一堆内容,最下方展示 If you meant "go" specifically: It was migrated from homebrew/cask to homebrew/core. Cas…

若依基本使用及改造记录

若依框架想必大家都了解得不少,不可否认这是一款及其简便易用的框架。 在某种情况下(比如私活)使用起来可谓是快得一匹。 在这里小兵结合自身实际使用情况,记录一下我对若依框架的使用和改造情况。 一、源码下载 前往码云进行…

Kafka 深入服务端 — 时间轮

Kafka中存在大量的延迟操作,比如延时生产、延时拉取和延时删除等。Kafka基于时间轮概念自定义实现了一个用于延时功能的定时器,来完成这些延迟操作。 1 时间轮 Kafka没有使用基于JDK自带的Timer或DelayQueue来实现延迟功能,因为它们的插入和…

数据分析系列--②RapidMiner导入数据和存储过程

一、下载数据 点击下载AssociationAnalysisData.xlsx数据集 二、导入数据 1. 在本地计算机中创建3个文件夹 2. 从本地选择.csv或.xlsx 三、界面说明 四、存储过程 将刚刚新建的过程存储到本地 Congratulations, you are done.

HarmonyOS简介:HarmonyOS核心技术理念

核心理念 一次开发、多端部署可分可合、自由流转统一生态、原生智能 一次开发、多端部署 可分可合 自由流转 自由流转可分为跨端迁移和多端协同两种情况 统一生态 支持业界主流跨平台开发框架,通过多层次的开放能力提供统一接入标准,实现三方框架快速…

ES6语法

一、Let、const、var变量定义 1.let 声明的变量有严格局部作用域 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"&g…

书生大模型实战营3

文章目录 L0——入门岛git基础Git 是什么&#xff1f;Git 中的一些基本概念工作区、暂存区和 Git 仓库区文件状态分支主要功能 Git 平台介绍GitHubGitLabGitee Git 下载配置验证下载 Git配置 Git验证 Git配置 Git常用操作Git简易入门四部曲Git其他指令 闯关任务任务1: 破冰活动…

前端——js高级25.1.27

复习&#xff1a;对象 问题一&#xff1a; 多个数据的封装提 一个对象对应现实中的一个事物 问题二&#xff1a; 统一管理多个数据 问题三&#xff1a; 属性&#xff1a;组成&#xff1a;属性名属性值 &#xff08;属性名为字符串&#xff0c;属性值任意&#xff09; 方…