大模型应用-多模态和大模型是如何相互成就的

前言

如果单纯的将大模型用来聊天,那就是low了。

而多模态赋予了大模型更多的现实价值,大模型则助力多模态变得更强大。

多模态

我们所处的是一个物理世界,不同事物之间模态多种多样,即便是简单的文本,按照语言,格式都可以分很多个模态。

在实际使用中,多模态的场景往往需要模型微调,才可能满足需求。

我们这里还是主要看一下当前比较常用的基础多模态和支持的模型。

模态场景模型备注
文本nlp:自然语言处理
nlu:自然语言理解
nlg:自然语言生成gpt-3.5-turbo
gpt-4
语音asr:语音转文本
tts:文本转语音国外:微软,google平台都很好用
国内:讯飞,Paddle等也很好语音一般都是转成文本然后给到大模型
图片文生图
图生文
图编辑
图检索midjourney:最好的图片生成工具,没有之一
DALL·E:openai的模型,2和3都很好,功能强大
gpt-4-vision-preview:图片理解的模型
VisualBERTImageBERT:图片向量化图片和大模型可以玩的很花,下面详说
视频文生视频,视频理解待sora问世视频相关的结合较少,基建缺缺
代码代码生成和纠错`Codex` 已集成到gpt的模型中现在的基础大模型几乎都具备编程能力,并且被广泛集成到github copilotVS Code这类工具中
embeddingRAG:检索增强开源的bert
openai的text-embedding-xxx系列
中文的m3e严格讲这不算一个模态,但RAG往往被单拎出来用
审计内容审计相关的场景,用于检测不安全内容openai的text-moderation-xx系列还记得我之前说的大模型安全问题吗,使用审计模型也是一种方向

典型场景

1. 漫画

我们可以利用大模型自动根据我们的剧情画漫画,它的实现流程大致如下:

  • 单智能体版本
  1. 创建一个漫画家agent
  2. 给这个漫画家添加一个文生图的tool
  3. 给它一段段剧情,自动生成漫画
  • 多智能体版本
  1. 创建一个漫画家agent,创建一个作家agent
  2. 给这个漫画家添加一个文生图的tool,给作家一个ttstool。
  3. 给作家一段概要,作家自动生成一段段剧情,并生成对应的语音
  4. 漫画家根据剧情画出漫画

2. 健身|减肥

在减肥的时候,是不是有这样的烦恼,不知道自己吃的这顿饭有多少卡路里?

我们可以在吃饭前,把食物拍下来,然后用图生文的能力解读出,当前食物所含有的卡路里。

3. 医疗

我生病时,最头疼的事情就是描述不出自己是什么病,也不知道用什么药。

亲身经历:有次早晨醒来,发现后槽牙龈肿了,吃不了饭,当时不知道是智齿冠周炎,去医院挂号排队,搞了一下午,开了一堆药。后来再出现这样的情况,我就直接网购阿莫西林胶囊和甲硝唑口含片,基本一两天就能好。省略一大笔冤枉钱和大把的时间。

现在想想,如果有大模型支持的医疗agent,借助图搜图的能力,我只需要对着口腔拍个照片,就能直接看病,抓药。

4. 法律助手

这是一个典型的embedding功能,在langchain框架上有现成的功能。实际应用中是非常普遍和广泛的。

比如当你在做某个事情,而不知道法律是如何规定的时候,用embedding功能对所有的法律条目进行召回,并用大模型进行总结和回复。

5. siri

这是一个较为复杂的场景,它集成苹果手机的基础功能,此时他的模态更加宽泛,是一个典型的大模型和多模态的应用场景。

尾语

多模态是大模型应用中不可缺少的部分。是更贴近应用的部分。

不同的应用场景需要不同的策略,可能是新旧技术的结合,也可能是完全新的领域,比如sora。多模态正在发力的路上,还需要我们更多的探索。

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/37884.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Docker0】网络更改

目录 1. 停止docker服务 2. 关闭docker默认桥接网络接口 3. 从系统删除docker0接口 4. 创建一个名为bridge0的新接口 5. 添加ip地址和子网掩码 6. 启用bridge0接口 7. (如果没起来就执行该句) 8. 查看ip 1. 停止docker服务 sudo service docker…

c++用什么软件编程?都有哪些?

c用什么软件编程?都有哪些? C 作为一种高效、面向对象的编程语言,广泛应用于软件开发、游戏开发、嵌入式系统等领域。那么在进行 C 编程时,我们通常会使用哪些软件呢?下面就来具体分析。 1. Visual Studio Visual Stu…

深入 SSH:解锁本地转发、远程转发和动态转发的潜力

文章目录 前言一、解锁内部服务:SSH 本地转发1.1 什么是 SSH 本地转发1.2 本地转发应用场景 二、打开外部访问大门:SSH 远程转发2.1 什么是 SSH 远程转发2.2 远程转发应用场景 三、动态转发:SSH 让你拥有自己的 VPN3.1 什么是 SSH 动态转发3.…

memory动态内存管理学习之weak_ptr

此头文件是动态内存管理库的一部分。std::weak_ptr 是一种智能指针,它持有对被 std::shared_ptr 管理的对象的非拥有性(“弱”)引用。在访问所引用的对象前必须先转换为 std::shared_ptr。std::weak_ptr 用来表达临时所有权的概念&#xff1a…

three.js实现雪花场景效果

点击获取雪花图片素材 提取码:lywa // 雪花效果 import * as THREE from "three" export function getsnowEffect(th) {console.log(th, th) // this 场景var that th// 创建一个BufferGeometry对象,用于存储顶点数据 const geometry new THREE.Buffe…

大模型微调实战之基于星火大模型的群聊对话分角色要素提取挑战赛:Task01:跑通Baseline

目录 0 背景1 环境配置1.1 下载包1.2 配置密钥1.3 测试模型 2 解决问题2.1 获取数据2.2 设计Prompt2.2 设计处理函数2.3 开始提取 附全流程代码 0 背景 Datawhale AI夏令营第二期开始啦,去年有幸参与过第一期,收获很多,这次也立马参与了第二…

VMware ESXi 技术

目录 一、VMware ESXi安装 1. 在VMware WorkStation中创建一台虚拟机 2. 进入VMware ESXi控制台 3. 配置VMware ESXi网络 二、使用Web网页端登录管理ESXi 1. 分配许可证密钥(选做) 2. 管理ESXi 三、VMware ESXi控制台 1. 创建虚拟机 2. 定制虚拟…

Webpack: 开发 PWA、Node、Electron 应用

概述 毋庸置疑,对前端开发者而言,当下正是一个日升月恒的美好时代!在久远的过去,Web 页面的开发技术链条非常原始而粗糙,那时候的 JavaScript 更多用来点缀 Web 页面交互而不是用来构建一个完整的应用。直到 2009年5月…

LINUX操作系统:Mx Linux,用虚拟机VMware Workstation安装体验

需求说明: 操作系统目前流行有Windows、Linux、Unix等,中国人应该要知道国有操作系统,也要支持国产操作系统,为了更好支持国产操作系统,我们也要知己知彼,那么今天就来体验一把操作系统Mx_Linux_23.2的安装…

分享一个下载windows系统镜像包的网站

下载各种操作系统(比如Windows、Linux、MacOS等)比较快的镜像站点,我尝试过这个不错,提供了BT连接,可以用迅雷软件下载,速度很快的! 入口地址:NEXT, ITELLYOU 1)打开网站…

[深度学习] Transformer

Transformer是一种深度学习模型,最早由Vaswani等人在2017年的论文《Attention is All You Need》中提出。它最初用于自然语言处理(NLP)任务,但其架构的灵活性使其在许多其他领域也表现出色,如计算机视觉、时间序列分析…

MySQL高级-SQL优化- limit优化(覆盖索引加子查询)

文章目录 0、limit 优化0.1、从表 tb_sku 中按照 id 列进行排序,然后跳过前 9000000 条记录0.2、通过子查询获取按照 id 排序后的第 9000000 条开始的 10 条记录的 id 值,然后在原表中根据这些 id 值获取对应的完整记录 1、上传5个sql文件到 /root2、查看…

libctk shared library的设计及编码实践记录

一、引言 1.1 <libctk>的由来 1.2 <libctk>的设计理论依据 1.3 <libctk>的设计理念 二、<libctk>的依赖库 三、<libctk>的目录说明 四、<libctk>的功能模块及使用实例说明 4.1 日志模块 4.2 mysql client模块 4.3 ftp client模块 4…

鸿蒙开发设备管理:【@ohos.geolocation (位置服务)】

位置服务 说明&#xff1a; 本模块首批接口从API version 7开始支持。后续版本的新增接口&#xff0c;采用上角标单独标记接口的起始版本。 导入模块 import geolocation from ohos.geolocation;geolocation.on(‘locationChange’) on(type: ‘locationChange’, request: L…

安卓开发自定义时间日期显示组件

安卓开发自定义时间日期显示组件 问题背景 实现时间和日期显示&#xff0c;左对齐和对齐两种效果&#xff0c;如下图所示&#xff1a; 问题分析 自定义view实现一般思路&#xff1a; &#xff08;1&#xff09;自定义一个View &#xff08;2&#xff09;编写values/attrs.…

poi-tl 生成 word 文件(插入文字、图片、表格、图表)

文章说明 本篇文章主要通过代码案例的方式&#xff0c;展示 poi-tl 生成 docx 文件的一些常用操作&#xff0c;主要涵盖以下内容 &#xff1a; 插入文本字符&#xff08;含样式、超链接&#xff09;插入图片插入表格引入标签&#xff08;通过可选文字的方式&#xff0c;这种方…

大模型和数据库最新结合进展

写在前面 本文主要内容是上次接受 infoQ 访谈&#xff0c;百度智能云朱洁老师介绍了大模型和 AI 结合相关话题&#xff0c;这次整体再刷新下&#xff0c;给到对这个领域感兴趣的同学。 当前&#xff0c;百度智能云云数据库特惠专场开始&#xff01;热销规格新用户免费使用&am…

最逼真的简易交通灯设计

最逼真的简易交通灯设计 需要资料的请在文章末尾获取&#xff08;有问题可以私信我哦~~&#xff09; 01 资料内容 Proteus仿真文件程序源码实物制作&#xff0c;代码修改&#xff0c;功能定制&#xff08;需额外收费&#xff0c;价格实惠&#xff0c;欢迎咨询&#xff09; …

实验场:在几分钟内使用 Elasticsearch 进行 RAG 应用程序实验

作者&#xff1a;来自 Elastic Joe McElroy, Serena Chou 什么是 Playground&#xff08;实验场&#xff09;&#xff1f; 我们很高兴发布我们的 Playground 体验 —- 一个低代码界面&#xff0c;开发人员可以在几分钟内使用自己的私人数据探索他们选择的 LLM。 在对对话式搜…

41割队伍

上海市计算机学会竞赛平台 | YACSYACS 是由上海市计算机学会于2019年发起的活动,旨在激发青少年对学习人工智能与算法设计的热情与兴趣,提升青少年科学素养,引导青少年投身创新发现和科研实践活动。https://www.iai.sh.cn/problem/387 题目描述 给定 𝑛n 个数字 𝑎1,�…