【深度学习:Foundation Models】基础模型完整指南

在这里插入图片描述

【深度学习:Foundation Models】基础模型完整指南

    • 什么是基础模型?
    • 基础模型背后的 5 项人工智能原理
      • 根据大量数据进行预训练
      • 自我监督学习
      • 过度拟合
      • 微调和快速工程(适应性强)
      • 广义的
    • 基础模型的用例
    • 基础模型的类型
      • 计算机视觉基础模型
      • 计算机视觉基础模型的示例
      • 多模式基础模型
      • 多模式基础模型示例
      • 生成对抗网络(GAN)
      • GAN 的示例
      • 基于 Transformer 的大型语言模型 (LLM)
      • LLMs的例子
    • 基础模型的评估指标
    • 如何在计算机视觉中使用基础模型
    • 基础模型要点

基础模型是经过人工智能训练的大规模模型,可利用海量数据和计算资源生成从文本到图像的任何内容。最流行的基础模型包括 GANs、LLMs、VAEs 和 Multimodal,为 ChatGPT、DALLE-2、Segment Anything 和 BERT 等著名工具提供支持。

基础模型是在大量无标记数据基础上进行无监督训练的大规模人工智能模型。

其结果是,这些模型具有令人难以置信的通用性,可用于众多任务和用例,如图像分类、物体检测、自然语言处理、语音转文本软件,以及在我们日常生活和工作中发挥作用的众多人工智能工具。

人工智能(AI)模型和该领域的进步正以前所未有的速度加速发展。就在不久前,德国艺术摄影师鲍里斯-埃尔达格森(Boris Eldagsen)的作品 "PSEUDOMNESIA:The Electricia "获得了 2023 年索尼世界摄影大赛创意类奖项。

在一份新闻稿中,该奖项的赞助商索尼公司将其描述为 “两代不同女性的黑白肖像,让人联想起 20 世纪 40 年代家庭肖像的视觉语言”。

获奖后不久,Eldagsen 拒绝接受奖项,承认图片是人工智能生成的。

基础模型并不新鲜。但它们对生成式人工智能软件和算法的贡献正开始对世界产生巨大影响。这张图片是否预示着未来的发展,以及基础模型和生成式人工智能的巨大潜在影响?

在这里插入图片描述
获奖的人工智能生成图像:未来的征兆和基础模型的力量?

在本文中,我们将深入探讨基础模型,包括以下内容:

  • 什么是基金会模式?
  • 基础模型背后的 5 项人工智能原理
  • 不同类型的基础模型(例如,广义网络模型、本地语言模型、VAE模型、多模态模型和计算机视觉模型等)
  • 基础模型的用例、演变和衡量标准;
  • 以及如何在计算机视觉中使用基础模型。

让我们继续深入 . .

什么是基础模型?

基础模型 "一词是斯坦福以人为中心的人工智能研究所(HAI)的基础模型研究中心(CRFM)于 2021 年创造的。CRFM 诞生于斯坦福的 HAI 中心,汇集了斯坦福 10 个院系的 175 名研究人员。

这远非唯一一家对基础模型进行研究的学术机构,但由于这一概念起源于此,因此值得注意的是最初对基础模型的描述方式。

CRFM 将基础模型描述为 “任何在广泛数据上训练出来的模型(一般使用大规模自监督),可以适应(例如微调)广泛的下游任务”。欲了解更多信息,他们的论文《论基础模型的机遇与风险》值得一读。

CRFM 主任、斯坦福大学计算机科学副教授珀西-朗(Percy Lang)说:"当我们听到 GPT-3 或 BERT 时,我们会被它们生成文本、代码和图像的能力所吸引,但更根本、更隐蔽的是,这些模型正在从根本上改变人工智能系统的构建方式。

换句话说,GPT-3(现为 V4)、BERT 和其他许多模型都是基础模型的实例和类型。

在这里插入图片描述
让我们来探讨基础模型背后的五个核心人工智能原理、使用案例、基于人工智能的模型类型,以及如何将基础模型用于计算机视觉使用案例。

基础模型背后的 5 项人工智能原理

以下是使基础模型成为可能的五项核心人工智能原则。

根据大量数据进行预训练

无论是经过微调的基础模型,还是开放或封闭的基础模型,通常都是在大量数据的基础上预先训练过的。

以 GPT-3 为例,它是在 500,000 百万字的基础上训练而成的,相当于人类 10 辈子不停地阅读!它包含 1750 亿个参数,比 GPT-3 多 100 倍,比其他同类 LLM 多 10 倍。

要使如此庞大的模型发挥作用,需要大量的数据和参数。实际上,开发基础模型需要非常充足的资金和资源。

一旦公开,任何人都可以将其用于无数商业或开源方案和项目。然而,这些模型的开发需要巨大的计算处理能力、数据和资源。

自我监督学习

在大多数情况下,基础模型根据自我监督学习原则运行。即使有数百万或数十亿的参数,提供的数据和输入也没有标签。模型需要学习数据中的模式,并据此生成响应/输出。

过度拟合

在预训练和参数开发阶段,过拟合是创建基础模型的重要组成部分。同样,Encord 在开发计算机视觉微模型时也使用了过度拟合技术。

微调和快速工程(适应性强)

基础模型的适应性非常强。这成为可能的原因之一是对它们进行微调和促进工程的工作。不仅在开发和训练阶段,而且当模型上线时,提示都可以实现大规模迁移学习。

这些模型根据用户的提示和输入不断改进和学习,使未来发展的可能性更加令人兴奋。

在这里插入图片描述

有关更多信息,请查看我们关于 SegGPT 的文章:对上下文中的所有内容进行分段 [解释]。

广义的

基础模型本质上是广义的。由于他们中的大多数人没有接受过任何特定的培训,因此数据输入和参数必须尽可能通用才能使其有效。

然而,基础模型的性质意味着它们可以根据需要应用并适应更具体的用例。从很多方面来说,它们对数十个行业和部门来说更加有用。

考虑到这一点,让我们考虑基础模型的各种用例。 。 。

基础模型的用例

基础模型有数百个用例,包括图像生成、自然语言处理 (NLP)、文本转语音、生成式 AI 应用程序等。

OpenAI 的 ChatGPT(包括最新迭代版本 4)、DALL-E 2 和 BERT(Google 开发的基于 NLP 的掩码语言模型)是最受广泛关注的基础模型示例中的两个。

然而,尽管这些令人兴奋和谈论,还有许多其他用例和基础模型类型。是的,这些基础模型能够执行生成人工智能下游任务,例如创建营销文案和图像,是输出的绝佳演示。

然而,数据科学家还可以为更专业的任务和用例训练基础模型。基础模型可以接受从医疗保健任务到自动驾驶汽车和武器以及分析卫星图像的任何训练。

在这里插入图片描述

基础模型的类型

有许多不同类型的基础模型,包括生成对抗网络 (GAN)、变分自动编码器 (VAE)、基于 Transformer 的大语言模型 (LLM) 和多模态模型。

当然,还有其他的,例如变分自动编码器(VAE)。但就本文而言,我们将探讨 GAN、多模态、LLM 和计算机视觉基础模型。

计算机视觉基础模型

计算机视觉是许多基于人工智能的模型之一。计算机视觉中使用了数十种不同类型的算法生成模型,基础模型就是其中之一。

计算机视觉基础模型的示例

Florence 就是一个例子,“一种计算机视觉基础模型,旨在学习通用视觉语言表示,适用于各种计算机视觉任务、视觉问答、图像字幕、视频检索等任务。”

Florence 在图像描述和标签方面经过了预先训练,使其成为使用图像文本对比学习方法的计算机视觉任务的理想选择。

多模式基础模型

多模态基础模型结合图像文本对作为输入,并在预训练数据阶段将两种不同的模态关联起来。当尝试实现任务的跨模态学习时,这被证明特别有用,从而使正在训练的多模态模型的数据之间具有很强的语义相关性。

多模式基础模型示例

多模式基础模型的一个例子是微软的 UniLM,“一个统一的预训练语言模型,可以读取文档并自动生成内容。”

微软亚洲研究院于 2019 年开始研究文档 AI(合成、分析、总结和关联文档中大量基于文本的数据)问题。该团队提出的解决方案结合了 CV 和 NLP 模型来创建 LayoutLM 和UniLM,专门用于阅读文档的预训练基础模型。

生成对抗网络(GAN)

生成对抗网络 (GAN) 是一种基础模型,涉及两个神经网络,它们在零和游戏中相互竞争。一个网络的收益就是另一个网络的损失。 GAN 对于半监督、监督和强化学习很有用。并非所有 GAN 都是基础模型;然而,有几个属于这一类。

美国计算机科学家 Ian Goodfellow 和他的同事在 2014 年提出了这个概念。

GAN 的示例

生成对抗网络 (GAN) 有许多用例,包括创建图像和照片、计算机视觉的合成数据创建、视频游戏图像生成,甚至增强天文图像。

在这里插入图片描述

基于 Transformer 的大型语言模型 (LLM)

基于 Transformer 的大型语言模型 (LLM) 是最广为人知和使用的基础模型之一。 Transformer 是一种深度学习模型,它权衡每个输入(包括递归输出数据)的重要性。

大型语言模型 (LLM) 是一种语言模型,由具有许多参数的神经网络组成,通常通过自我监督学习方法对数十亿个基于文本的输入进行训练。将 LLM 和 Transformer 相结合,为我们提供了基于 Transformer 的大语言模型 (LLM)。

正如你们中的许多人所知道的那样,有大量的示例和用例,并且可能已经从每天在各种工作场所场景中的部署中受益。

在这里插入图片描述

LLMs的例子

一些最受欢迎的LLMs包括 OpenAI 的 ChatGPT(包括最新版本,版本 4)、DALL-E 2 和 BERT(由 Google 创建的LLMs)。

BERT 代表“来自 Transformers 的双向编码器表示”,实际上比基础模型的概念早了几年。

而 OpenAI 的 ChatGPT 中的“Chat”代表“生成式预训练 Transformer”。 Microsft 对 ChatGPT-3 的功能印象深刻,因此对 OpenAI 进行了大量投资,目前正在将其基础模型技术与其搜索引擎 Bing 集成。

谷歌正在取得类似的进展,利用基于人工智能的LLMs通过称为 Bard 的功能来增强其搜索引擎。据我们所知,人工智能即将塑造搜索的未来。

正如您所看到的,LLMs(无论是否基于 Transformer)正在对搜索引擎和人们使用人工智能仅在少量提示下生成文本和图像的能力产生重大影响。

我们始终热衷于学习、理解和使用新工具,尤其是基于人工智能的工具。以下是我们雇用 ChatGPT 作为 ML 工程师一天时发生的事情!

在这里插入图片描述

基础模型的评估指标

基础模型的评估方式有很多种,其中大多数分为两类:内在评估(模型针对任务和子任务设置的性能)和外在评估(模型如何针对最终目标进行整体执行)。

不同的基础模型以不同的方式根据性能指标进行衡量;例如,与预测模型相比,生成模型将根据其自身进行评估。

在高层次上,以下是用于评估基础模型的最常见指标:

  • 精度: 始终值得测量。这个基础模型的精确度如何?精度和准确度是在数百个算法生成的模型中使用的 KPI。
  • F1 分数: 结合了精度和召回率,因为它们是互补的指标,生成单个 KPI 来衡量基础模型的输出。
  • 曲线下面积 (AUC): 一种有用的方法,用于评估模型是否可以根据特定基准和阈值分离并捕获积极结果。
  • 平均倒数排名 (MRR): 一种评估响应与所提供的查询或提示相比正确与否的方法。
  • 平均精度(MAP): 评估检索任务的指标。 MAP 计算接收和生成的每个结果的平均精度。
  • 面向召回的 Gisting 评估 (ROUGE): 衡量模型性能的召回,用于评估生成文本的质量和准确性。检查模型是否出现“幻觉”也很有用;得出一个有效猜测的答案,产生不准确的结果。

还有很多其他的。然而,对于研究基础模型或将其与 CV、AI 或深度学习模型结合使用的 ML 工程师来说,这些是一些最有用的评估指标和 KPI。

如何在计算机视觉中使用基础模型

尽管基础模型更广泛地用于基于文本的任务,但它们也可以部署在计算机视觉中。在许多方面,基础模型都直接或间接地为计算机视觉的进步做出了贡献。

更多资源投入人工智能模型开发,这对计算机视觉模型和项目产生了积极的连锁反应。

更直接的是,有专门为计算机视觉创建的基础模型,例如 Florence。另外,正如我们所见,GAN 基础模型对于为计算机视觉项目和应用程序创建合成数据和图像非常有用。

基础模型要点

基础模型在促进各种规模的组织广泛使用和采用人工智能解决方案和软件方面发挥着重要作用。

凭借各个领域的大量用例和应用程序,我们预计基础模型将鼓励采用其他基于人工智能的工具。

生成式人工智能工具等基础模型正在降低企业开始采用人工智能工具的门槛,例如计算机视觉项目的自动注释和标签平台。

得益于人工智能平台,现在所做的很多事情都是不可能的,这展示了组织可以从人工智能工具中获得的投资回报率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/612160.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

最新版CleanMyMac X4.14.7智能清理mac磁盘垃圾工具

CleanMyMac X是一款专业的Mac清理软件,可智能清理mac磁盘垃圾和多余语言安装包,快速释放电脑内存,轻松管理和升级Mac上的应用。同时CleanMyMac X可以强力卸载恶意软件,修复系统漏洞,一键扫描和优化Mac系统,…

借助GPT理解 “ Android中 点击弹框外部 取消弹框”

在平常的开发工作中 或 阅读技术博客/书籍 时,难免会遇到我们不懂的知识点,网络上搜索的资料 需要有准确性,系统性,可实操性。 这样的资料查询很费时间且还不一定能找到,但是如果借助训练过的的gpt,就会省下…

[Kubernetes]7. K8s包管理工具Helm、使用Helm部署mongodb集群(主从数据库集群)

上一节讲解了[Kubernetes]6. k8s Pod配置管理ConfigMap & Secret以及传递环境变量的使用,k8s的命名空间以及使用kubens管理命名空间的使用,这里来介绍一下Helm的使用 一.Helm相关介绍 1.介绍 在 kubernetes 系统上部署容器化应用时需要事 先手动编写资源配置清单文件 以…

Prometheus实战篇:Prometheus监控docker

Prometheus实战篇:Prometheus监控docker 准备环境 监控docker 为了能够获取到Docker容器的运行状态,用户可以通过Docker的stats命令获取当前主机上运行容器的统计信息,可以查看容器的CPU利用率,内存使用量,网络IO总量以及磁盘IO总量等信息. docker stats除了使用命令以外,用户…

【占用网络】SurroundOcc:基于环视相机实现3D语义占用预测 ICCV 2023

前言 本文分享“占用网络”方案中,来自ICCV 2023的SurroundOcc,它基于环视相机实现3D语义占用预测。 使用空间交叉注意力将多相机图像信息提升到3D体素特征,即3D体素Query到2D图像中查询融合特征的思想。 然后使用3D卷积逐步对体素特征进行…

如何快速断行、分割行、切割行、换行、限制每行字数、平均分割每行字数、序号自动换行、关键字断行等等内容格式整理

首先,需要用到的这个工具: 百度 密码:qwu2蓝奏云 密码:2r1z 打开工具,切换到“文章工作域”(嗯...默认就是) 找到这个,多内容断行分割 点击打开,出现如下窗口设置 相关的…

Netty-Netty基础应用与了解

前言 Netty 的优势 1、 API 使用简单,开发门槛低; 2、功能强大,预置了多种编解码功能,支持多种主流协议; 3、定制能力强,可以通过 ChannelHandler 对通信框架进行灵活地扩展; 4、性能高…

【教程】通过Excel宏/Pandas两种方法来自动添加渐变数据条

这种数据真的很难看懂: 一般会对其画折线图或者数据条,相比起来就非常直观: 但是每一列都要手动这样设置就非常累了,所以这里就用到了VBA宏(或者Pandas)。 VBA宏方法 从这里进入宏: 随便写一个宏名后点创建&#xff1…

PyTorch项目源码学习(1)

PyTorch PyTorch是一个开源的深度学习框架,项目地址 https://github.com/pytorch/pytorch 在学术工作中的使用频率较高。 其主体由C开发,PyTorch是Torch的Python调用版本。学习PyTorch项目源代码的目的在于学习其中的实现方法与技巧,增加训练…

LangChain 69 向量数据库Pinecone入门

LangChain系列文章 LangChain 50 深入理解LangChain 表达式语言十三 自定义pipeline函数 LangChain Expression Language (LCEL)LangChain 51 深入理解LangChain 表达式语言十四 自动修复配置RunnableConfig LangChain Expression Language (LCEL)LangChain 52 深入理解LangCh…

毕业论文idea

三大模块 分级、分类、系统 多看医学图像处理毕业论文。 Swin Transformer的模型表现不如MobileViT 使用高像素的数据集在云服务器上训练时,如果您发现Swin Transformer的模型表现不如MobileViT,这可能由几个因素导致: 模型架构与数据匹配…

机器视觉在OCR字符检测的应用

在产品质量 检测过程中,对于字符、条码等标识信息的识别、读取、检测是非常重要的一部分,比如在食品饮料包装检测中,生产日期 、保质期 、生产批号 、条码等字符信息是产品管理和追溯必不可缺的,因此利用机器视觉技术进行OCR字符采…

【实用技巧】Windows电脑向iPhone或iPad传输视频方法2:有线传输

一、内容简介 本文介绍如何使用 Windows 电脑向 iPhone 或 iPad 传输视频,以 iPhone 为例,iPad的操作方法类似,本文不作赘述。 二、所需原材料 Windows 电脑(有 USB-A 或 USB-C 接口)(桌面或其它文件夹中…

Web组件的使用

文章目录 1 概述2 加载网页加载在线网页加载本地网页 3 网页缩放文本缩放 4 Web组件事件Web组件处理JS confirm事件 5 Web和JavaScript交互启用JavaScriptWeb组件调用JS方法JS调用Web组件方法 6 处理页面导航7 调试网络应用8 参考链接 1 概述 相信大家都遇到过这样的场景&…

Mixtral Moe代码解读

一直对稀疏专家网络好奇,有些专家没被选中,那么梯度是否为0,这一轮被选中有梯度,下一轮没被选中无梯度,模型可以训练收敛吗? 由于每个token都会选择topk个专家,所以在每一轮epoch中,…

python工具-udp-tcp-client-server-demo

python工具-udp-tcp-client-server-demo server tcp-server: python xxx.py -type tcp -ip “127.0.0.1” -port 1234udp-server: python xxx.py -type udp -ip “127.0.0.1” -port 1234 client python xxx.py -type udp -ip “127.0.0.1” -port 1111python xxx.py -type tc…

依赖Kafka的Go单元测试例解

Kafka[1]是Apache基金会开源的一个分布式事件流处理平台,是Java阵营(最初为Scala)中的一款杀手级应用,其提供的高可靠性、高吞吐量和低延迟的数据传输能力,让其到目前为止依旧是现代企业级应用系统以及云原生应用系统中使用的重要中间件。 在…

pytorch无法把共享内存写入文件

环境: 在容器中跑pytorch模型的训练 问题表现: ERROR: Unexpected bus error encountered in worker. This might be caused by insufficient shared memory (shm). Traceback (most recent call last): File "/root/anaconda3/lib/python3.8/m…

flutter getTemporaryDirectory()的使用

下面是上传音视频流的截图,先保存在缓存,然后请求接口,成功或者失败会删除文件。 可以在Device File Explorer查看, Android: 会返回 /data/data//cache 这个目录,是应用私有的缓存目录。 iOS: 会返回 Library/Caches 下的一个…

Java学习笔记-day06-响应式编程Reactor API大全(上)

Reactor 是一个基于响应式编程的库&#xff0c;主要用于构建异步和事件驱动的应用程序。Reactor 提供了丰富的 API&#xff0c;包括创建、转换、过滤、组合等操作符&#xff0c;用于处理异步数据流。以下是一些 Reactor 的主要 API 示例&#xff1a; pom依赖 <dependencyMan…