AI大模型开发架构设计(9)——AI 编程架构刨析和业务应用实战案例

文章目录

    • AI 编程架构刨析和业务应用实战案例
      • 1 AI编程代码生成模型剖析
        • 编程方式的发展
        • 代码自动生成
        • 基于大模型的AI编程工具——Github Copilot
        • 以 CodeGeeX 为例-发展过程
        • 以 CodeGeeX 为例-训练过程
        • 以 CodeGeeX 为例-大规模代码数据处理
        • 以 CodeGeeX 为例-模型结构
        • 以 CodeGeeX 为例-模型训练框架及算力
        • 以 CodeGeeX 为例-如何评估代码生成模型的性能?
      • 2 AI编程应用技术架构
        • 基于大模型的AI编程应用技术架构(1)
        • 基于大模型的AI编程应用技术架构(2)
        • 基于大模型的AI编程应用技术架构(3)

AI 编程架构刨析和业务应用实战案例

1 AI编程代码生成模型剖析

编程方式的发展
  • 从机器语言到人类语言,越来越 简单化、智能化、降本增效、提质

image.png

代码自动生成
  • 自动代码生成或程序合成(Program Synthesis)是计算机科学领域长久以来的一大难题。

image.png

基于大模型的AI编程工具——Github Copilot
  • 基于 OpenAI Codex 模型,2021年6月推出,2022年正式收费
  • Your AI pair programmer

image.png

  • 其它的AI编程工具
    • Cursor:https://www.cursor.so/
    • Bito:https://bito.ai/
    • CodeWhisperer:https://aws.amazon.com/codewhisperer/
    • CodeGeeX2:https://codegeex.cn/zh-CN
  • AI编程工具费用比较

image.png

以 CodeGeeX 为例-发展过程

image.png

以 CodeGeeX 为例-训练过程

image.png

以 CodeGeeX 为例-大规模代码数据处理

image.png

以 CodeGeeX 为例-模型结构

image.png

以 CodeGeeX 为例-模型训练框架及算力
  • 框架:基于华为 Mindspore 1.7
  • 计算资源:1536 张昇腾 910 AI 处理器
  • 混合精度:FP16(Layernorm,Softmax 使用 FP32 保证稳定性)
  • 并行训练:192 路数据并行 + 8 路模型并行
  • 全局批大小:3072
  • 训练时长:2个月
  • 训练量:~8500 亿 tokens

image.png

以 CodeGeeX 为例-如何评估代码生成模型的性能?
  • 语义相似性 VS 功能正确性
  • 代码正确性基准评估
    • HumanEval:仅支持Python
    • HumanEval-X:支持多语言

2 AI编程应用技术架构

基于大模型的AI编程应用技术架构(1)

image.png

  • 这是最简单的 AI Native 应用程序,应用程序直接将 Prompt 给到大模型(ChatGPT、文心一言…),然后大模型就返回 Response 给到应用程序。
  • 这种架构下,只能利用大模型完成一些简单的事情,对于更为复杂的事(比如:帮我写一个愤怒的小鸟小游戏)就完成不了了。
基于大模型的AI编程应用技术架构(2)

image.png

  • 加入 AI Agent 做需求的拆解,借助外部的一些能力,比如 Function Calling 让应用程序调用外部的 API。
  • 私有知识库进行切片,利用大模型做 Embeddings 向量化,存储到向量数据库。应用程序的Prompt 结合私有向量数据库的检索结果一起给到大模型,这样大模型就有了用户知识库的上下文,最终就给出用户想要的结果。
基于大模型的AI编程应用技术架构(3)

image.png

  • 进行 Fine-tuning 微调

企业知识库案例三步骤

  • 文档 -> Vector Store 表示语义的 Index,可以做语义搜索
  • Retrieval 是将 Query Embeding 后,查询近似文档过程
  • 大模型做最后的知识理解和 QA 问答

image.png

思考:为什么需要 Embeddings?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/673265.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[设计模式Java实现附plantuml源码~行为型]请求的链式处理——职责链模式

前言: 为什么之前写过Golang 版的设计模式,还在重新写Java 版? 答:因为对于我而言,当然也希望对正在学习的大伙有帮助。Java作为一门纯面向对象的语言,更适合用于学习设计模式。 为什么类图要附上uml 因为很…

JWT令牌 | 一个区别于cookie/session的更安全的校验技术

目录 1、简介 2、组成成分 3、应用场景 4、生成和校验 5、登录下发令牌 🍃作者介绍:双非本科大三网络工程专业在读,阿里云专家博主,专注于Java领域学习,擅长web应用开发、数据结构和算法,初步涉猎Pyth…

洛谷C++简单题小练习day9—[AHOI2017]寻找探监点

day9--[AHOI2017]寻找探监点--2.7 习题概述 题目描述 一个nn 的网格图(标号由 1,1 开始)上有 m 个探测器,每个探测器有个探测半径 r ,问这 nn 个点中有多少个点能被探测到。 输入格式 第一行 3 个整数 n,m,r。 接下来 m 行&…

黄金交易策略:heiken ashi smoothed与macd快慢指标协同工作

第2点应该是有很大的优化空间 推荐阅读:Nerve Knife.ex4黄金交易策略_黄金趋势ea-CSDN博客

Verilog刷题笔记23

题目: Suppose you’re building a circuit to process scancodes from a PS/2 keyboard for a game. Given the last two bytes of scancodes received, you need to indicate whether one of the arrow keys on the keyboard have been pressed. This involves a fairly simp…

2020年通信工程师初级专业实务真题

文章目录 一、第1章 现代通信网概述:信令网、同步网、管理网。第10章 通信业务:通信产业链,通信终端的分类,通信业务的定义及分类二、第3章 接入网:无线接入网的优点,接入网的接口(UNI&#xff…

git rebase # |REBASE 1/1 #rebase in progress; onto

git 代码解决冲突之后会提示rebase in progress; onto 1 执行git rebase --abort 回到没有pull代码之前 2 git pull 3 解决冲突 4 git add . (不需要git commit) 5 git rebase --continue 6 git push

人工智能之大数定理和中心极限定理

大数定律 大数定律:是一种描述当试验次数很大时所呈现的概率性致的定律,由概率统计定义“频率收敛于概率”引申而来。换而言之,就是n个独立分布的随机变量其观察值的均值依概率收敛于这些随机变量所属分布的理论均值,也就是总体均…

拿捏循环链表

目录: 一:单链表(不带头单向不循环)与循环链表(带头双向循环)区别 二:循环链表初始化 三:循环链表头插 四:循环链表尾插 五:循环链表头删 六&#xff1…

kafka客户端生产者消费者kafka可视化工具(可生产和消费消息)

点击下载《kafka客户端生产者消费者kafka可视化工具(可生产和消费消息)》 1. 前言 因在工作中经常有用到kafka做消息的收发,每次调试过程中,经常需要查看接收的消息内容以及人为发送消息,从网上搜寻了一下&#xff0…

【C++航海王:追寻罗杰的编程之路】类与对象你学会了吗?(下)

目录 1 -> 再谈构造函数1.1 -> 构造函数体赋值1.2 -> 初始化列表1.3 -> explicit关键字 2 -> static成员2.1 -> 概念2.2 -> 特性 3 -> 友元3.1 -> 友元函数3.2 -> 友元类 4 -> 内部类5 -> 匿名对象6 -> 拷贝对象时的一些编译器优化 1 -…

K8s环境下rook-v1.13.3部署Ceph-v18.2.1集群

文章目录 1.K8s环境搭建2.Ceph集群部署2.1 部署Rook Operator2.2 镜像准备2.3 配置节点角色2.4 部署operator2.5 部署Ceph集群2.6 强制删除命名空间2.7 验证集群 3.Ceph界面 1.K8s环境搭建 参考:CentOS7搭建k8s-v1.28.6集群详情,把K8s集群完成搭建&…

基于高通滤波器的ECG信号滤波及心率统计matlab仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 4.1 ECG信号简介 4.2 高通滤波器原理 4.3 心率统计 5.完整工程文件 1.课题概述 通过高通滤波器对ECG信号进行滤波,然后再统计其心率。 2.系统仿真结果 3.核心程序与模型 版本&#xff1a…

如何用DT浏览器建立视频播放系统

在DT浏览器官方网站下载最新版软件,安装,在DT浏览器首页点视频直播,软件会自动检测手机相册里的视频并且显示出来,选择需要播放的视频在直播间里播放。如果要建立节目单,需要在服务器上把播放顺序,视频名称…

算法——前缀和算法

1. 什么是前缀和算法 前缀和算法(Prefix Sum)是一种用于快速计算数组元素之和的技术。它通过预先计算数组中每个位置前所有元素的累加和,将这些部分和存储在一个新的数组中,从而在需要计算某个区间的和时,可以通过简单…

springboot-web服务迁移Kubernetes

1、搞定基础镜像 docker pull openjdk:8-jre-alpine docker tag openjdk:8-jre-alpine 10.204.82.15/kubernetes/openjdk:8-jre-alpine docker push 10.204.82.15/kubernetes/openjdk:8-jre-alpine 2、springboot-web应用服务打包 3、编写Dockerfile构建镜像 FROM 10.204.82.…

深入了解CMSIS:ARM Cortex微控制器软件接口标准介绍

CMSIS (Cortex Microcontroller Software Interface Standard) 是ARM公司提供的一套规范和接口,旨在为Cortex-M系列微控制器提供一致的软件接口,以提高开发效率和可移植性。本文将深入介绍CMSIS的各个部分和功能,并解释其在嵌入式系统开发中的…

Affinity Photo值不值得买 Affinity Photo多少钱

照片编辑软件在设计师和摄影爱好者中都扮演着重要的角色,而Affinity Photo作为一款备受赞誉的专业级照片编辑软件,值不值得购买呢?Affinity Photo多少钱?下面我们将从多个方面来评估其价值。 一、Affinity Photo值不值得买&#x…

Redis分布式锁的使用案例

一、引入依赖 <dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version>3.5.0</version> </dependency> 二、工具类 package com.hl.redisdemo.util;import redis.clients.jedi…

学习Android的第四天

目录 Android FrameLayout ( 帧布局 ) FrameLayout size 大小 FrameLayout 属性 Android GridLayout ( 网格布局 ) GridLayout 属性 计算器布局 Android AbsoluteLayout 绝对布局 AbsoluteLayout 四大控制属性 Android FrameLayout ( 帧布局 ) FrameLayout 是 Android…