AI大语言模型工程师学习路线

文章目录

  • 运行LLMS
    • LLM APIS
    • 开源的大语言模型
    • Prompt engineering
      • 1. 明确目标
      • 2. 理解模型能力
      • 3. 使用示例
      • 4. 精确和具体的指令
      • 5. 考虑上下文
      • 6. 避免偏见和不准确的信息
      • 7. 测试和迭代
      • 8. 使用模板
      • 9. 考虑多语言能力
      • 10. 注意伦理和合规性
    • 结构化输出
      • 1. 使用明确的提示(Prompts)
      • 2. 采用模板(Templates)
      • 3. 利用零样本或少样本学习(Zero-shot or Few-shot Learning)
      • 4. 指导性问题(Guided Questions)
      • 5. 分步提示(Step-by-step Prompting)
      • 6. 使用特定的格式指示词
      • 7. 后处理(Post-processing)
      • 8. 交互式提示(Interactive Prompting)
      • 9. 训练定制化模型(Training Customized Models)
      • 10. 反馈循环(Feedback Loops)
  • 构建向量存储
    • 摄取文档
      • 1. 文档准备
      • 2. 元数据提取
      • 3. 文本清洗和标准化
      • 4. 文档解析
      • 5. 数据存储
      • 6. 与模型集成
      • 7. 安全性和隐私
      • 8. 可扩展性
      • 9. 监控和维护
      • 10. 用户界面
    • 分割文档
      • 1. 按长度分割
      • 2. 按内容结构分割
      • 3. 按主题分割
      • 4. 按功能分割
      • 5. 保留上下文信息
      • 6. 考虑分割的一致性
      • 7. 使用自动化工具
      • 8. 后处理和验证
      • 9. 考虑性能和资源
      • 10. 用户交互
    • 嵌入模型
      • 1. 词嵌入(Word Embeddings)
      • 2. 句子和段落嵌入(Sentence and Paragraph Embeddings)
      • 3. 嵌入在推荐系统中的应用
      • 4. 嵌入在处理长文本中的应用
      • 5. 嵌入模型的评估
      • 6. 嵌入模型的生成和存储
    • 向量数据库
      • 1. 文本嵌入(Text Embeddings)
      • 2. 向量数据库的作用
      • 3. 结合使用LLM和向量数据库
      • 4. 应用场景
      • 5. 推荐的向量数据库
      • 6. 存储和查询流程
  • 检索增强生成(Retrieval Augmented Generation)
    • Orchestrators
    • Retrievers
    • Memory
    • Evaluation
  • 高级RAG
    • 查询构建
    • 代理和工具
    • 后处理
  • 推理优化
    • Flash Attention
    • Key-value cache
    • 推测性解码
  • LLMs安全
  • 部署LLMS
    • 本地部署
    • 演示部署
    • 服务器部署
    • 边缘部署

运行LLMS

LLM APIS

由于硬件要求高,运行大型语言模型(LLMs)可能会很困难。根据您的用例,您可能只想通过API(如GPT-4)使用模型,或者在本地运行它。
OpenAI的ChatGPT API - 提供基于GPT-3模型的文本生成和对话能力。
Bard API - 可能是指由Google开发的一个LLM API,用于生成文本和对话。
GooseAI - 搜索结果中没有提供详细信息,但GooseAI可能是一个提供自然语言处理服务的API。
Cohere API - 提供文本生成、摘要、翻译等功能。
Gorilla - 一个开源的、最先进的LLM,能够从自然语言提示生成准确可靠的API调用。
RestGPT - 一个将大型语言模型与现实世界中的RESTful APIs连接起来的框架。

国内的模型:
百度的文心一言API - 具备跨模态、跨语言的深度语义理解与生成能力。
阿里云的通义千问API - 能够在用户自然语言输入的基础上,提供服务和帮助。
腾讯的混元大模型API - 在自然语言处理、文本生成、机器翻译等领域具有广泛的应用。
科大讯飞的星火认知大模型API - 在多个方面如文本生成、语言理解等提升了性能。
字节跳动的云雀大模型API - 具备多种功能和应用场景,通过自然语言交互,能够高效地完成互动对话、信息获取等任务。
智谱华章的智普清言API - 具有强大的自然语言处理和多模态理解能力。
中科院的紫东太初API - 在自然语言处理、文本生成、机器翻译等领域具有广泛的应用

开源的大语言模型

Grok-1:由马斯克旗下的人工智能初创公司xAI训练,参数量高达3140亿,是迄今为止参数量最大的开源大模型。
Llama:由Meta公司发布,参数量为700亿。
LLaMA 2 - 由Meta AI(原Facebook AI)发布的开源大型语言模型,具有不同规模的版本,从7亿到700亿参数。
BLOOM - 由BigScience和Hugging Face合作开发的自回归LLM,拥有176亿参数,支持多种语言。
BERT - 由Google开发的开源双向编码器表示模型,是Transformer架构的早期实现之一,广泛应用于各种NLP任务。
Falcon 180B - 由阿拉伯技术创新研究所发布的模型,具有1800亿参数,旨在缩小专有和开源LLM之间的性能差距。
OPT-175B - Meta AI发布的一系列预训练Transformer模型,参数范围从125M到175B,其中175B版本性能与GPT-3相似。
XGen-7B - Salesforce推出的模型,专注于支持更长上下文窗口的工具,具有7亿参数。
GPT-NeoX 和 GPT-J - 由EleutherAI开发的开源替代品,参数量分别为20亿和6亿,训练自22个高质量数据集。
Vicuna 13-B - 一个开源对话模型,通过使用从ShareGPT收集的用户共享对话对LLaMa 13B模型进行微调而训练而来。
此外,还有一些针对特定语言或领域的开源LLM,例如:
ChatGLM-6B - 支持中英双语的对话语言模型,针对中文进行了优化。
MOSS - 支持中英双语的对话大语言模型,具有160亿参数。
CPM-Bee - 完全开源、允许商用的百亿参数中英文基座模型。
LaWGPT - 基于中文法律知识的大语言模型。
本草 (BenTsao) - 基于中文医学知识的LLaMA微调模型。
这些开源LLM为研究人员和开发者提供了丰富的资源,可以用于各种自然语言处理任务,如文本生成、问答系统、机器翻译等。开源LLM的可用性和灵活性促进了NLP领域的创新和发展

Prompt engineering

Prompt engineering 是指设计和优化输入文本(称为prompt)以引导大型语言模型(LLM)生成特定输出的过程。在自然语言处理(NLP)中,特别是在使用基于Transformer的模型(如GPT-3、BERT等)时,prompt engineering 是一个关键的技能,因为它可以显著影响模型的输出质量和相关性。
以下是一些prompt engineering的关键方面和技巧:

1. 明确目标

在设计prompt之前,你需要明确你希望模型执行的任务。是生成文本、回答问题、翻译语言、还是其他任务?明确的目标将帮助你构建更有效的prompt。

2. 理解模型能力

不同的模型可能在不同的任务上表现更好。了解你的模型擅长什么,以及它的训练数据包含哪些内容,可以帮助你设计更合适的prompt。

3. 使用示例

提供一个或多个相关示例可以指导模型理解你期望的输出格式。这种方法被称为“零样本”或“少样本”学习。

4. 精确和具体的指令

尽量使prompt精确和具体,避免模糊不清的语言。这有助于模型生成更准确和相关的输出。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/775594.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

什么是自然语言处理(NLP)?自然语言处理(NLP)的概述

什么是自然语言处理? 自然语言处理(NLP)是人工智能(AI)和计算语言学领域的一个分支,它致力于使计算机能够理解、解释和生成人类语言。随着技术的发展,NLP已经从简单的模式匹配发展到了能够理解…

Ceph——部署

Ceph简介 Ceph是一款开源的 SDS 分布式存储,它具备极高的可用性、扩展性和易用性,可用于存 储海量数据 Ceph的存储节点可部署在通用服务器上,这些服务器的 CPU 可以是 x86 架构的,也可以 是 ARM 架构的。 Ceph 存储节点之间相互…

政安晨:【深度学习神经网络基础】(一)—— 逐本溯源

政安晨的个人主页:政安晨 欢迎 👍点赞✍评论⭐收藏 收录专栏: 政安晨的机器学习笔记 希望政安晨的博客能够对您有所裨益,如有不足之处,欢迎在评论区提出指正! 与计算机一样的古老历史 神经网络的出现可追溯到20世纪40年…

ubuntu22.04系统安装Opencv4.8.0+Opencv-contrib4.8.0

一、安装下载所需工具 1.打开终端,输入以下命令来更新软件源: sudo apt-get update 2.安装wget: sudo apt-get install wget 3.下载opencv和opencv-contrib包: wget -O opencv-4.8.0.zip https://github.com/opencv/opencv/…

【漏洞复现】网络验证系统getInfo接口处存在SQL注入漏洞

免责声明:文章来源互联网收集整理,请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失,均由使用者本人负责,所产生的一切不良后果与文章作者无关。该…

Remote Desktop Manager for Mac:远程桌面管理软件

Remote Desktop Manager for Mac,是远程桌面管理的理想之选。它集成了多种远程连接技术,无论是SSH、RDP还是VNC,都能轻松应对,让您随时随地安全访问远程服务器和工作站。 软件下载:Remote Desktop Manager for Mac下载…

【性能优化】 【回溯】 【字符串】1307. 口算难题

作者推荐 视频算法专题 本文涉及知识点 数学 回溯 字符串 性能优化 LeetCode1307. 口算难题 给你一个方程,左边用 words 表示,右边用 result 表示。 你需要根据以下规则检查方程是否可解: 每个字符都会被解码成一位数字(0 - …

云原生(六)、CICD - Jenkins快速入门

Jenkuns快速入门 一、CICD概述 CICD是持续集成(Continuous Integration)和持续部署(Continuous Deployment)的缩写。它是软件开发中的一种流程和方法论,旨在通过自动化的方式频繁地将代码集成到共享存储库中&#xf…

策略路由-IP-Link-路由协议简介

策略路由 策略路由和路由策略的不同 1.策略路由的操作对象是数据包,在路由表已经产生的情况下,不按照路由表进行转发,而是根据需要,依照某种策略改变数据包的转发路径 2.路由策略的操作对象是路由信息。路由策略的主要实现了路…

关于LLM的简单赘述

关于LLM的简单赘述 在线大模型开源大模型GPT系列模型先进模型特性大模型未来发展最重要的两个趋势 在线大模型 以 OpenAIGPT 系列为代表的大模型,只提供在线调用方法,无本地硬件要求,但调用需要“按量计费”(以及有网络限制)。 GPT模型谷歌…

nginx代理服务后,有关文件的操作无法执行,nginx代理jupyter或为知笔记后无法创建文件及文件夹,无法操作文件

nginx配置 server {listen 18001; # 修改转发的接口listen [::]:18001; # 修改转发的接口server_name _;root /usr/share/nginx/html;location / {proxy_pass http://127.0.0.1:7777; # 指定自己服务地址proxy_set_header Host $host;}# Load configurat…

服务器监控软件夜莺采集监控(三)

文章目录 一、采集器插件1. exec插件2. rabbitmq插件3. elasticsearch插件 二、监控仪表盘1. 系统信息2. 数据服务3. NginxMQ4. Docker5. 业务日志 一、采集器插件 1. exec插件 input.exec/exec.toml [[instances]] commands ["/home/monitor/categraf/scripts/*.sh&q…

【深度学习】图片预处理,分辨出模糊图片

ref:https://pyimagesearch.com/2015/09/07/blur-detection-with-opencv/ 论文 ref:https://www.cse.cuhk.edu.hk/leojia/all_final_papers/blur_detect_cvpr08.pdf 遇到模糊的图片,还要处理一下,把它挑出来,要么修复,要么弃用。否…

信号处理--情绪分类数据集DEAP预处理(python版)

关于 DEAP数据集是一个常用的情绪分类公共数据,在日常研究中经常被使用到。如何合理地预处理DEAP数据集,对于后端任务的成功与否,非常重要。本文主要介绍DEAP数据集的预处理流程。 工具 图片来源:DEAP: A Dataset for Emotion A…

【深度学习】深度学习md笔记总结第2篇:TensorFlow介绍,学习目标【附代码文档】

深度学习笔记完整教程(附代码资料)主要内容讲述:深度学习课程,深度学习介绍要求,目标,学习目标,1.1.1 区别,学习目标,学习目标。TensorFlow介绍,2.4 张量学习目标,2.4.1 张量(Tensor),2.4.2 创建张量的指令,2.4.3 张量…

Python 从0开始 一步步基于Django创建项目(11)注册新用户

1、修改C:\D\Python\Python310\study\snap_gram\users路径下的urls.py 添加‘注册新用户’URL。 #注册新用户 path(register/,views.register,nameregister), 2、修改C:\D\Python\Python310\study\snap_gram\users路径下的views.py 编写URL对应的视图函数register。 def r…

02.percona Toolkit工具pt-archiver命令实践

1.命令作用 Percona Toolkit有的32个命令,可以分为7大类 工具类别 工具命令 工具作用 备注 开发类 pt-duplicate-key-checker 列出并删除重复的索引和外键 pt-online-schema-change 在线修改表结构 pt-query-advisor 分析查询语句,并给出建议&#x…

Lua热更新(xlua)

发现错误时检查是否:冒号调用 只需要导入asset文件夹下的Plugins和Xlua这两个文件即可,别的不用导入 生成代码 和清空代码 C#调用lua using Xlua; 需要引入命名空间 解析器里面执行lua语法 lua解析器 LuaEnv 单引号是为了避免引号冲突 第二个参数是报错时显示什么提示…

【Java程序设计】【C00389】基于(JavaWeb)Springboot的校园疫情防控系统(有论文)

基于(JavaWeb)Springboot的校园疫情防控系统(有论文) 项目简介项目获取开发环境项目技术运行截图 博主介绍:java高级开发,从事互联网行业六年,已经做了六年的毕业设计程序开发,开发过…

H5小程序视频方案解决方案,实现轻量化视频制作

对于许多企业而言,制作高质量的视频仍然是一个技术门槛高、成本高昂的挑战。针对这一痛点,美摄科技凭借其深厚的技术积累和创新能力,推出了面向企业的H5/小程序视频方案解决方案,为企业提供了一种轻量化、高效、便捷的视频制作方式…