大模型应用开发基础

AGI 时代,AI 无处不在,形成新的社会分层:

  1. AI 使用者,使用别人开发的 AI 产品
  2. AI 产品开发者,设计和开发 AI 产品
  3. 基础模型相关,训练基础大模型,或为大模型提供基础设施

越向下层,重要性越高,从业人数越少。

AI 产品开发者的核心能力模型

三懂:

  1. 懂业务,就是懂用户、懂客户、懂需求、懂市场、懂运营、懂商业模式
  2. 懂 AI,就是懂 AI 能做什么,不能做什么;怎样才能做得更好,更快,更便宜
  3. 懂编程,就是懂如何编程实现一个符合业务需求的产品

建议:

  1. 编程向的,要尽可能靠近业务,争取全栈,否则走不远

  2. 业务向的,试试学编程,自主性更强。AI 编程,门槛已经低多了(但绝不是没门槛)

  3. 原理:不懂原理就不会举一反三,走不了太远。

  4. 实践:不懂实践就只能纸上谈兵,做事不落地。

  5. 认知:认知不高就无法做对决策,天花板太低。

大模型 AI 能干什么?

大模型,全称「大语言模型」,英文「Large Language Model」,缩写「LLM」。

国家公司对话产品大模型网址
美国OpenAIChatGPTGPT-3.5、GPT-4https://chat.openai.com/
美国MicrosoftCopilotGPT-4 和未知https://copilot.microsoft.com/
美国GoogleGeminiGeminihttps://bard.google.com/
美国AnthropicClaudeClaudehttps://claude.ai/
中国百度文心一言文心 4.0https://yiyan.baidu.com/
中国阿里通义千问通义千问https://tongyi.aliyun.com/qianwen
中国智谱 AI智谱清言GLM-4https://chatglm.cn/
中国月之暗面Kimi ChatMoonshothttps://kimi.moonshot.cn/
中国MiniMax星野abab6https://www.xingyeai.com/

当下,如何发挥大模型的现有能力呢?最大障碍是没有形成认知对齐。

image-20240420162013552

成功落地大模型五要素:

  1. 业务人员的积极
  2. 对 AI 能力的认知
  3. 业务团队自带编程能力
  4. 小处着手
  5. 老板的耐心

找落地场景的思路:

  1. 从最熟悉的领域入手
  2. 找「文本进、文本出」的场景
  3. 别求大而全。将任务拆解,先解决小任务、小场景
  4. 让 AI 学最厉害员工的能力,再让 ta 辅助其他员工,实现降本增效

大模型是怎么生成结果的?

通俗原理

其实,它只是根据上文,猜下一个词(的概率)……

OpenAI 的接口名就叫「completion」,也证明了其只会「生成」的本质。

下面用程序演示「生成下一个字」。你可以自己修改 prompt 试试。还可以使用相同的 prompt 运行多次。

略深一点的通俗原理

训练和推理是大模型工作的两个核心过程。

用人类比,训练就是学,推理就是用。学以致用,如是也。

用不严密但通俗的语言描述训练和推理的原理:

训练:

  1. 大模型阅读了人类说过的所有的话。这就是「机器学习
  2. 训练过程会把不同 token 同时出现的概率存入「神经网络」文件。保存的数据就是「参数」,也叫「权重

推理:

  1. 我们给推理程序若干 token,程序会加载大模型权重,算出概率最高的下一个 token 是什么
  2. 用生成的 token,再加上上文,就能继续生成下一个 token。以此类推,生成更多文字

Token 是什么?

  1. 可能是一个英文单词,也可能是半个,三分之一个
  2. 可能是一个中文词,或者一个汉字,也可能是半个汉字,甚至三分之一个汉字
  3. 大模型在开训前,需要先训练一个 tokenizer 模型。它能把所有的文本,切成 token

再深一点点

这套生成机制的内核叫「Transformer 架构」。Transformer 仍是主流,但其实已经不是最先进的了。

架构设计者特点链接
TransformerGoogle最流行,几乎所有大模型都用它OpenAI 的代码
RWKVPENG Bo可并行训练,推理性能极佳,适合在端侧使用官网、RWKV 5 训练代码
MambaCMU & Princeton University性能更佳,尤其适合长文本生成GitHub

目前只有 transformer 被证明了符合 scaling-law。(缩放定律) 算力越大效果越好

用好 AI 的核心心法

OpenAI 首席科学家 Ilya Sutskever 说过:

数字神经网络和人脑的生物神经网络,在数学原理上是一样的。

所以,我们要:

把 AI 当人看

  1. 用「当人看」来理解 AI
  2. 用「当人看」来控制 AI
  3. 用「当人看」来说服别人正确看待 AI 的不足

当什么人呢?

  1. 学习时当老师
  2. 工作时当助手
  3. 休闲时当朋友

这是贯彻整门课的心法,乃至我们与 AI 相伴的人生的心法。

大模型应用业务架构

image-20240420163633974

Agent 还太超前,Copilot 值得追求。

理清业务,拆出 SOP,非常关键。

大模型应用技术架构

大模型应用技术特点:门槛低,天花板高。

纯 Prompt

当人看:你说一句,ta 回一句,你再说一句,ta 再回一句……

image-20240420163818491

Agent + Function Calling

  • Agent:AI 主动提要求
  • Function Calling:AI 要求执行某个函数
  • 当人看:你问 ta 过年去哪玩,ta 先问你有多少预算

image-20240420163845093### RAG(Retrieval-Augmented Generation)检索增强生成

  • Embeddings:把文字转换为更易于相似度计算的编码。这种编码叫向量
  • 向量数据库:把向量存起来,方便查找
  • 向量搜索:根据输入向量,找到最相似的向量
  • 当人看:考试答题时,到书上找相关内容,再结合题目组成答案,然后,就都忘了

image-20240420164113343

百分之80的行业大模型都是用Rag做的,都没有做训练,因为用不上,解决效果足够好,成本还低,实时性好,我个人理解像动态库

Fine-tuning(精调/微调)

当人看:努力学习考试内容,长期记住,活学活用。

image-20240420164737019

得到专有的垂直领域大模型

如何选择技术路线

面对一个需求,如何开始,如何选择技术方案?下面是个不严谨但常用思路。

其中最容易被忽略的,是准备测试数据

image-20240420165341594

值得尝试 Fine-tuning 的情况:

  1. 提高模型输出的稳定性
  2. 用户量大,降低推理成本的意义很大
  3. 提高大模型的生成速度
  4. 需要私有部署

如何选择基础模型

基础模型选型,也是个重要因素。合规和安全是首要考量因素。

**划重点:**没有最好的大模型,只有最适合的大模型

需求国外闭源大模型国产闭源大模型开源大模型
国内 2C🛑
国内 2G🛑
国内 2B
出海
数据安全特别重要🛑🛑

然后用测试数据,在可以选择的模型里,做测试,找出最合适的。

推荐:

  1. 用 ChatALL 做测试,比较高效
  2. 唯一值得相信的榜单:LMSYS Chatbot Arena Leaderboard

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/1015.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MEMENTO(备忘录)-- 对象行为型模式

意图: 在不破坏封装性的前提下,捕获一个对象的内部状态,并在该对象之外保存这个状态。这样以后就可将该对象恢复到原先保存的状态。 别名: Token 动机: 有时必要记录一个对象的内部状态。 适用性: a. 必…

【云计算】云数据中心网络(五):对等连接

《云网络》系列,共包含以下文章: 云网络是未来的网络基础设施云网络产品体系概述云数据中心网络(一):VPC云数据中心网络(二):弹性公网 IP云数据中心网络(三)…

跟TED演讲学英文:How AI could save (not destroy) education by Sal Khan

How AI could save (not destroy) education Link: How AI could save (not destroy) education Speaker: Sal Khan Date: April 2023 文章目录 How AI could save (not destroy) educationIntroductionVocabularyTranscriptSummary后记 Introduction Sal Khan, the founder…

遥瞻智慧:排水系统远程监控的卓越解决方案

遥瞻智慧:排水系统远程监控的卓越解决方案 在城市脉络的深层肌理中,排水系统犹如一条条隐秘的生命线,默默承载着城市的呼吸与律动。然而,如何以科技之眼,赋予这些无形网络以实时感知、精准调控的能力,使之…

网络管理实验三、SNMP协议工作原理验证与分析

1 实验概括 实验目的: 学习捕获SNMP报文,通过报文分析理解SNMP协议的工作过程。 实验内容: 1) 使用snmputilg发送SNMP数据包; 使用wireshark抓包;使用netstat –an查看代理站TCP/UDP连接表; 2)…

识周期以备,用周期以对

坐在阳台上喝茶,看着三角梅的花朵绽放着,凋零着,随风飘落… 春夏秋冬,花开花落。不禁感慨生命之渺小,敬畏周期的力量。 今天抽空聊聊周期,周期的核心是均值回归,周期也是“道”。 1 过去40年&am…

深入解析Tomcat的工作流程

tomcat解析 Tomcat是一个广泛使用的开源Servlet容器,用于托管Java Web应用程序。理解Tomcat的工作流程对于开发人员和系统管理员来说是非常重要的。本文将深入探讨Tomcat的工作原理,包括请求处理、线程池管理、类加载、以及与Web服务器之间的通信。 ###…

【错题集-编程题】腐烂的苹果(多源 BFS + 最短路)

题目链接:腐烂的苹果_牛客题霸_牛客网 (nowcoder.com) 一、分析题目 多源 BFS 问题,加一点最短路的思想,固定套路。 二、代码 //看了题解之后AC的代码 class Solution { private:int n, m;bool vis[1010][1010];int dx[4]{-1,0,1,0}, dy[4]{…

Java 集合(ArrayList、LinkedList、HashMap、HashSet、LinkedHashMap、LinkedHashSet)【补充复习】

Java 集合(ArrayList、LinkedList、HashMap、HashSet、LinkedHashMap、LinkedHashSet)【补充复习】 Java 集合概述Collection 接口继承树Map 接口继承树 Collection 接口方法使用 iterator 接口遍历集合元素使用 forearch 遍历集合元素 List 接口List 实…

Java中的栈和队列

1.前言 在计算机科学中,数据结构是用来组织和存储数据的方式,以便可以高效地访问和修改。栈和队列是两种最基本的数据结构,它们在各种计算过程中都有广泛的应用。本文将介绍栈和队列的概念、特性以及它们的一些常见应用。 2.栈 2.1概念 栈…

求不同字符个数(C语言)

一、N-S流程图&#xff1b; 二、运行结果&#xff1b; 三、源代码&#xff1b; # define _CRT_SECURE_NO_WARNINGS # include <stdio.h>int main() {//初始化变量值&#xff1b;char c 0;int a 0, k 0, n 0, q 0;//提示用户&#xff1b;printf("请输入一段话:…

【Java探索之旅】用面向对象的思维构建程序世界

&#x1f3a5; 屿小夏 &#xff1a; 个人主页 &#x1f525;个人专栏 &#xff1a; Java编程秘籍 &#x1f304; 莫道桑榆晚&#xff0c;为霞尚满天&#xff01; 文章目录 &#x1f4d1;前言一、初识面向对象1.1 什么是面向对象&#xff1f;1.2 面向对象与面向过程 二、类的定义…

【工厂模式】工厂方法模式、抽象工厂模式-简单例子

简单工厂模式&#xff0c;请跳转到我的另一篇博客【工厂模式】简单工厂模式-简单例子-CSDN博客 四、工厂方法模式 &#xff08;1&#xff09;这部分还是不变&#xff0c;创建一个Car接口&#xff0c;和两个实现类。 public interface Car {void name(); }public class WuLing…

贵阳市人民政府副市长刘岚调研珈和科技

4月9日&#xff0c;贵阳市人民政府副市长、党组成员刘岚一行到珈和科技走访调研&#xff0c;珈和科技总经理冷伟热情接待了考察团&#xff0c;就企业算力需求与合作&#xff0c;特色产业园区建设&#xff0c;科技成果转化落地等方面进行深入交流。 贵阳市教育局局长李波&#…

交换基础配置--单臂路由

1、创建vlan 创建vlan10 创建vlan10和vlan20 创建vlan1到vlan9 vlan1可以不用创建&#xff0c;因为交换机的所有接口默认为vlan1 本实验只需要vlan10和vlan20&#xff0c;以上只是介绍创建vlan的方法。 查看创建的vlan&#xff1a; sw2同理。接着将需要划分vlan的接口划入…

通过PyCharm平台开发Django应用程序

学会使用命令行工具开发Django应用程序是基础&#xff0c;不过更多的时候还是要借助平台开发工具。目前&#xff0c;最好的Django应用程序开发工具就是jetBrains公司推出的PyCharm平台了。 借助PyCharm开发平台&#xff0c;可以极大提高开发Django应用程序的效率&#xff0c;同…

电脑工作者缓解眼部疲劳问题的工具分享

背景 作为以电脑为主要工作工具的人群&#xff0c;特别是开发人员&#xff0c;我们每天都需要长时间紧盯着屏幕&#xff0c;进行代码编写、程序调试、资料查询等工作。这种持续的工作模式无疑给我们的眼睛带来了不小的负担。一天下来&#xff0c;我们常常会感到眼睛干涩、疲劳…

OpenHarmony 视图加载——ImageViewZoom

简介 ImageViewZoom 支持加载 Resource 或 PixelMap 图片&#xff0c;支持设置图像显示类型功能&#xff0c;支持缩放功能&#xff0c;支持平移功能&#xff0c;双击放大功能&#xff0c;可以监听图片大小&#xff0c;资源变化事件&#xff0c;支持清除显示图片功能。 效果展示…

Docker(七):容器监控工具(Portainer、CAdvisor)

一&#xff1a;轻量级可视化监控工具Portainer 可视化监控工具, 可以通过docker安装&#xff0c;用于管理和监控docker&#xff0c;基本上的docker命令都有对应的按钮来操作。 # always 表示docker重启了该容器也跟着重启 docker run -d --name portainer -p 8000:8000 -p 90…

USART(串口通信协议)

USART&#xff08;串口通信协议&#xff09; 【通信的目的】将一个设备的数据传输到另外一个设备&#xff0c;拓展硬件系统 【 通信协议】制定通信的规则&#xff0c;通信双方按照协议进行数据的收发 串口通信中各个参数的含义 【TX】 数据接收脚【RX】 数据发送脚【SCL】 …