【AI大模型】AI大模型热门关键词解析与核心概念入门

🚀 作者：“大数据小禅”

🚀 文章简介 ：本专栏后续将持续更新大模型相关文章，从开发到微调到应用，需要下载好的模型包可私。

🚀 欢迎小伙伴们点赞👍、收藏⭐、留言💬

目录导航

- - 热门AI大模型关键词解析

热门AI大模型关键词解析

大模型

- "大模型"的是大型的人工智能模型，特别是在深度学习领域中。这些模型因其庞大的参数数量、复杂的网络结构和在多种任务上的出色表现而得名。大模型能够处理和分析大量数据，通过这些数据学习到复杂的模式和关系，从而在各种人工智能任务上表现卓越。

微调
- “微调”（Fine-tuning）时，指的是在一个已经预训练过的大规模模型的基础上，进行额外训练以适应特定任务或数据集的过程。这个步骤是在模型已经通过大量的通用数据进行了基础训练之后进行的，目的是使模型更好地适应特定的应用场景
- 微调步骤
  - 选择预训练模型：从现有的大型预训练模型中选择一个作为基础，如BERT、GPT、T5等。
  - 准备数据集：为特定任务准备训练和验证数据集。这些数据集应与预训练数据集不同，代表模型需要适应的新任务或领域。
  - 设置模型参数：根据任务需求调整模型参数，如学习率、批次大小等。
  - 训练和验证：使用训练数据集进行微调，并在验证数据集上测试性能，以防止过拟合。
  - 保存微调模型：将微调后的模型保存，供未来使用
FAQ
- FAQ 是“Frequently Asked Questions”的缩写，中文意思是“常见问题解答”。这是一种普遍使用的信息共享方式，通常出现在网站、产品手册、服务说明等地方，旨在为用户、顾客或公众提供关于某个特定主题或服务的预先编制的问题和答案。
benchmark 模型评估
- 在大模型或广义的人工智能（AI）领域中，"benchmark"通常指用来衡量和评估AI模型性能的标准测试集或评价方法。Benchmarking在AI研究和开发中非常重要，它提供了一个公平、一致的方式来比较不同模型和算法的效果，帮助研究人员和开发者了解新模型在解决特定问题时的相对效能
- 用途
  - 性能评估：通过在预定义的测试集上运行模型，使用标准化的评价指标（如准确率、精度、召回率、F1分数等）来衡量模型的性能。
  - 模型比较：Benchmark使得不同模型或不同算法之间可以在相同条件下进行公平比较，以确定哪些方法在特定任务上更为有效。
  - 进展追踪：通过定期使用相同的benchmark，研究社区可以追踪AI技术在某一领域内随时间的进步情况。
  - 问题识别：Benchmark测试可以帮助开发者识别模型的弱点，比如在哪些类型的输入数据上表现不佳，从而指导未来的研究和改进方向
xx B
- 一个AI大模型的参数大小为6B时，这里的“6B”指的是6 billion（60亿）参数。
- 模型的“参数”是指模型内部用于学习和推理的数值，这些数值在训练过程中被调整以帮助模型更好地理解和处理数据。
RAG
- RAG 模型将传统的生成式模型，如 GPT 或 BERT，与一个信息检索系统结合起来。
- 在传统的生成模型中，模型依赖于其训练时的数据集来生成回答。
- 在 RAG 架构中，每当模型接收到一个查询或问题时，它首先使用一个检索系统（通常是基于向量的搜索引擎）从一个大型文档集合中检索相关信息。
- 这些检索到的文档被用作生成模型的输入的一部分，以帮助生成更准确、更丰富的回答
- RAG是Retrieval Augmented Generation的缩写，翻译过来，就是检索增强生成。事实上，RAG也的确结合了“检索器”和“生成器”两大功能组件，用来处理复杂的信息查询和生成任务。
  
  不过RAG很少单独行动，一般在大语言模型（LLM）原始数据集的基础上，通过加入外部数据（如本地知识库、企业信息库等）来对AI模型的“检索”和“生成”能力进行加持，以提高信息查询和生成质量
- 用处
  - 问答系统：能够提供更加精确和详细的答案，尤其是在医疗、法律或技术等专业领域。
  - 内容推荐：通过分析检索到的相关内容，生成个性化的内容推荐。
  - 自动文摘：根据检索到的相关文档，生成高质量的摘要。
  - 对话系统：提供更加丰富和具有情境相关性的对话回答
- 组成
  - 检索器（Retriever）：这一层的任务是快速从庞大的数据集中找到与输入查询最相关的文档或信息。常见的实现方式包括使用倒排索引或最近邻搜索算法。
  - 阅读器（Reader）：一旦检索器找到相关的文档，阅读器层会分析这些文档并结合原始查询来生成回答。这一层通常由一个或多个预训练的语言模型组成，如 GPT 或 BERT。
  - 交互层：在某些实现中，RAG 模型还可能包括一个交互层，使得检索到的信息和生成模型之间能进行更好的信息融合
- 参考文章：https://www.163.com/dy/article/J04J4J6S055669A5.html
LLM
- LLM（Large Language Model）指的是大型语言模型，是一种使用深度学习技术训练的自然语言处理（NLP）模型，特别指那些模型规模较大，参数数量通常在数十亿至数千亿之间的模型。
- 这些模型通过在大规模文本数据上进行训练，学习语言的复杂模式和结构，以此来理解和生成人类语言
- LLM 通常基于变换器（Transformer）架构，这种架构由Vaswani等人在2017年提出。变换器模型特别依赖于自注意力机制（self-attention mechanism）这使得模型能够在处理输入数据时考虑到输入序列中不同部分之间的关系。这种机制使得LLM在理解上下文中的词语关系方面表现出色，因此非常适合处理复杂的语言理解和生成任务
- 用处
  - 文本生成：如文章撰写、诗歌创作、代码生成等。
  - 对话系统：为聊天机器人和虚拟助手提供自然语言对话能力。
  - 语言翻译：自动翻译不同语言之间的文本。
  - 情感分析：识别和分类文本中的情感倾向。
  - 文本摘要：自动生成文本内容的摘要
向量数据库
- 是一种专门为存储、索引和检索向量数据设计的数据库系统。
- 向量数据通常代表在多维空间中的点，它们可以是图像、文本或其他数据形式的特征表示。在人工智能和机器学习领域，尤其是在处理深度学习模型时，向量数据库的应用非常广泛，因为它们可以高效地处理和查询大规模的向量数据
- 原理
  - 通常用于支持基于向量的搜索操作，如最近邻搜索（Nearest Neighbor Search），这种搜索可以快速找出与给定向量最相似的向量。
  - 在底层实现上，向量数据库可能使用不同的数据结构和算法，如KD树、球树或近似最近邻索引技术（如Facebook的Faiss、Spotify的Annoy等），以优化查询效率和准确性
- 应用场景
  - 推荐系统：在推荐系统中，向量数据库可以用来存储用户和物品的嵌入向量，并通过计算这些向量之间的相似度来生成推荐。
  - 图像检索：在图像数据库中，可以利用向量数据库来快速找出与给定图像特征最相似的图像。
  - 自然语言处理：在NLP应用中，文本数据经过嵌入转换成向量后，可以利用向量数据库进行高效的文本相似度搜索
- 举个例子
  - 1. Milvus： Milvus是一个开源的向量数据库，支持高效的向量检索。它可以无缝集成到机器学习、深度学习的工作流中，适用于在线推荐系统、图像检索和NLP等多种场景。
    
    2. Pinecone： Pinecone是一种向量数据库服务，专为构建和部署大规模相似性搜索应用而设计。它提供了可扩展的基础设施，使得开发者可以快速实现包括内容推荐和异常检测等功能。
    
    3. Weaviate： Weaviate是一个实时向量搜索引擎，支持GraphQL和RESTful API。它结合了文本和图像的向量索引功能，适用于开发复杂的数据检索和分析应用
- zero-shot
  - Zero-shot learning（零样本学习）是一种机器学习方法，用于处理在训练集中没有样本的类别。在传统的监督学习中，模型需要在训练阶段接触到所有可能的类别，以便学习到它们的特征和属性。但在实际应用中，存在一些类别可能不具备足够的样本来进行训练，这就需要零样本学习来解决这个问题。
  - 在零样本学习中，模型通过利用已知类别的特征来推断未知类别的属性。这通常通过将已知类别和未知类别在一个共享的特征空间中进行比较来实现。例如，如果模型在训练阶段学习到了关于动物的特征，包括哺乳动物和鸟类等，那么在测试阶段，即使没有见过鱼类的样本，模型也可以通过推断鱼类的特征来进行分类。
  - 零样本学习通常需要模型具备很强的泛化能力和推理能力，以便能够从有限的样本中推断出未知类别的属性。近年来，随着深度学习技术的发展，一些模型如零样本图像分类、文本分类等任务上取得了显著的进展，但仍然存在一些挑战，如数据稀缺性、领域差异等。
多模态
- 多模态（multimodal）指的是涉及多种感知模态（例如图像、文本、语音等）的数据或信息。在多模态学习中，模型需要同时处理和融合来自不同感知模态的信息，以实现更全面、更准确的理解和推断。
  
  举例来说，多模态可以应用在以下场景中：
  1. 图像描述生成：给定一张图片，模型需要生成描述该图片内容的文本。在这个任务中，模型需要同时理解图像的视觉特征和语义信息，以生成合适的文本描述。
  2. 视频理解：对于视频数据，多模态模型可以同时考虑视频的视觉内容和语音内容，以实现视频内容的理解、分类或描述生成。
  3. 情感分析：多模态情感分析涉及理解包含文本、音频和视频等多种模态的信息，并从中推断出情感状态（如喜怒哀乐等）。例如，模型可以同时考虑文本内容、语音音调和面部表情等信息来进行情感分析。
  4. 自动驾驶：在自动驾驶领域，多模态数据可以包括来自摄像头、激光雷达、GPS等多种传感器的信息。模型需要综合利用这些信息来实现环境感知、障碍物检测、路径规划等功能
Few-Shot
- "Few-shot"是指在机器学习和人工智能领域中的一种学习方式，通常用于指代具有很少训练样本的任务。在传统的机器学习任务中，模型通常需要大量的训练数据来获得良好的性能。然而，在现实世界中，有些任务可能只有很少的训练数据可用，这可能是因为数据稀缺或者数据采集成本高昂。
- Few-shot学习旨在解决这个问题，让模型能够从少量的训练样本中学习，并且在面对新任务时能够泛化良好。这通常涉及到使用各种技术，如迁移学习、元学习和模型预训练等。通过这些方法，模型可以利用少量的数据来完成任务，从而更有效地应对现实世界中的挑战。

大模型原理-训练

大模型简单原理 - 训练
- 训练是一个涉及构建、训练和优化大型神经网络的过程，以执行特定任务，例如语言理解、图像识别或其他复杂任务。
- 这些大型模型通常包含数百万甚至数十亿个参数，需要大量的数据和计算资源来训练。
- 训练本身是一个迭代过程，模型通过接收大量的输入数据（如文本、图像等）并尝试预测正确的输出（如文本的意图、图像中的对象等）来学习。
- 在训练过程中，模型的参数会根据它的预测误差不断调整，以减少误差并提高模型对新数据的泛化能力。
- 让模型做到：给定前面的一些单词预测后面的一些单词，做到这点模型具备"智慧" 训练好一个模型-就是塞到数据足够多
TransFormer模型介绍
- https://www.jianshu.com/p/b40deff0ca63
- 简介
  - 是一个深度学习架构，特别适用于处理序列数据，如自然语言处理和机器翻译
  - 主要特征在于它的自注意力机制和并行化能力
- 主要部分
  - 自注意力机制：一种计算序列中每个位置与其他位置的相关性的方法。通过键、值和查询来确定序列中最相关的部分。
  - 多头注意力：是多个自注意力机制的组合，每个注意力头可以学习不同的特征。增强了模型的灵活性和表达能力。
  - 前馈神经网络：每个编码器和解码器层中都有一个独立的前馈神经网络，提供额外的非线性能力。
  - 编码器-解码器结构：Transformer由编码器和解码器两部分组成。编码器将输入序列转换为一系列表示，解码器从这些表示中生成输出序列。
  - 位置编码：因为Transformer没有内建的序列信息，需要使用位置编码来提供每个位置的相对或绝对位置
- 运行原理
  - 输入嵌入：输入数据（例如句子）首先被嵌入为固定维度的向量表示。这个过程将文本转换为数值形式。
  - 添加位置编码：为了保持序列信息，位置编码与输入嵌入相加。这种编码提供了序列中每个位置的位置信息。
  - 编码器：编码器是Transformer的第一部分。它通常包含多个层（如6层）。每个层包含自注意力机制和前馈神经网络。
    - 自注意力：每个注意力头计算序列中每个位置与其他位置的相关性。
    - 前馈神经网络：为每个位置提供额外的非线性变换。
  - 解码器：解码器是Transformer的第二部分。它也包含多个层，且每层与编码器层有额外的注意力连接。
    - 自注意力：解码器内部的自注意力用于关注先前的解码结果。
    - 多头注意力：用于关注编码器的输出。
    - 前馈神经网络：为解码器提供额外的非线性能力。
  - 输出生成：解码器的最终输出是一个概率分布，表示每个可能的输出项的可能性。然后，可以根据需求生成输出文本或其他形式的数据
- 目前openAI的GLIDE、DALLE-2、DALL·E 3 、谷歌的Imagen等就采用了基于Transformer架构的扩散模型