2023年,AI爆发的一年

公众号:算法一只狗

今年以来,AI呈爆发式发展。在文本生成的领域,涌现出以ChatGPT为代表的生成式大模型。而在文本图像生成方面,有高度自定义的Stable Diffusion,和简单易用上手的Midjournery。多模态领域更是百花齐放,从GPT4的发布,到国内各大厂商的多模态模型,都证明这个领域具有极大的潜力。而在近期,视频生成领域有了爆发的可能性,众多免费可用的模型开源出来,像比较出名的Pika、Runway Gen 2等,成为各大巨头竞争的新领域。

这篇文章主要总结近一年以来,AI领域上的一些重要节点。

生成式大模型

GPT4

在年初发布的GPT4,确实给沉浸许久的AI圈投入了一个深水炸弹。对比于GPT3来看,GPT4提升幅度较大

  • 在处理复杂任务上,GPT-4更可靠、更有创意,并且能够处理更细微的指令。
  • 各种奥林匹克竞赛、GRE考试、代码考试、统一律师考试等测试上,GPT-4都基本完虐GPT-3.5

而且GPT4在视觉输入方面也大幅提升,它可以扮演老师的角色,解答图片的数学问题,又或者可以基于图片内容能够理解笑话。

LLAMA2

到目前为止,OpenAI并没有开源GPT4模型,开发者只能够调用其API。而META为了对抗GPT4垄断生成式领域,直接开源其模型LLAMA2,让开发者可以基于LLAMA2模型制作精细化领域大模型。

LLAMA2中,相比于LLAMA1主要引入了RLHF(人类反馈强化学习,也就是在训练ChatGPT提到的一个技术)。

训练 Llama-2-chat:Llama 2 使用公开的在线数据进行预训练。然后通过使用监督微调创建 Llama-2-chat 的初始版本。 它使用人类反馈强化学习 (RLHF) 进行迭代细化,其中包括拒绝采样和近端策略优化 (PPO)。

Claude2

Claude2模型是Anthropic公司发布的第二代模型。说起这家Anthropic公司,其目标是成为一家研究人工智能安全和有益发展的公司,且由Dario Amodei和Daniela Amodei兄妹两于2021年创立。而且Dario Amodei曾在Open AI担任研究副总裁,领导了GPT-2和GPT-3等重要项目的开发。

所以说这家公司和OpenAI还是有一定的渊源的。只是因为后来,由于微软对OpenAI的投资,使其变成了专属于微软的CloseAI,Dario对其心存不满,因此就自立门户,创建了这家公司。

这个模型的优点在于免费可用,且其能够基于给定的多个文档进行回答。具有文档对话能力、和多个文档的联系对话功能。

Gemini

在最近,最为爆火的当然要属于谷歌发布的Gemini模型。从发布的Gemini模型来看,其具有三个不同的版本:

  • Gemini Ultra:最强的Gemini版本,在多个测试结果上与GPT-4不分上下,但是目前还仅在demo状态。
  • Gemini Pro:对标GPT-3.5模型
  • Gemini Nano:致力于使得手机也能够运行大模型

而且谷歌宣传Gemini最强模型已经部分超越GPT4模型,但是最强模型目前暂时还不能用,说是要等到2024年才开放使用。

在谷歌放出Gemini的效果视频后,就有人开始打假说这个视频经过了剪辑。随后谷歌确实承认视频是经过前后剪辑。比如从下面视频看,以为是Gemini可以实时识别手部姿势,但是其实是谷歌给出了三个图片,让他说出答案的。

多模态领域

MiniGPT4

在多模态领域,GPT4一开始是不能够使用的。于是有些研究者等不及了,利用大语言模型和视觉编码器,训练了一个MiniGPT-4模型。

在MiniGPT-4模型中,你可以围绕一张图片和它进行对话:

在官网放出的例子中,它可以描述这张图片的内容:

或者可以给这张图定制一个广告语:

文心一言

文心一言是集百度所有技术产生的国产模型。而且百度从很早开始就一直聚焦于AI技术,它也是国内处于第一梯度的大模型。

文心一言不仅仅能够进行文本生成,也能够输入文本进行图像生成。其功能比较强大,目前已经出到了4.0版本。

百度CEO李彦宏称:最新的4.0版本的综合能力与GPT4相比毫不逊色。从使用体验上看,文心一言在中文领域上对比ChatGPT使用效果更好,而且能够适合多种多样的场景,使用起来已经提前帮你设定好prompt,让你快速上手提升工作效率。

通义千问

通义千问是阿里发布的开源模型,其集成了文本生成、图片生成等能力,也可以让开发者基于该模型自定义自己的领域模型

从官网中介绍,通义千问有以下几个优点:

  • 训练时使用了大规模的高质量数据:使用了超过2.2万亿token进行预训练
  • 更好地支持多语言:基于更大词表的分词器在分词上更高效,同时它对其他语言表现更加友好。用户可以在Qwen-7B的基础上更方便地训练特定语言的7B语言模型。
  • 支持8K长度上下文:允许用户输入更长的prompt。
  • 评测能力有大幅提升:通义千问在多个评测数据集上具有显著优势,甚至超出12-13B等更大规模的模型。

从实验中看出,通义千问模型在多个数据集评测上都超过现有的开源模型,而且甚至比之前META开源的LLAMA2-7B模型效果要好:

ChatGLM

经过前面两代版本的更新迭代,清华的ChatGLM第三代终于发布了,在实用性能上确实可以称得目前国内最好用的多模态大模型。

其功能涵盖了多方面,不仅仅包括简单的文本问答,图片问答,还有类似于ChatGPT一样的文档问答,代码解析器等。真正做到了多场景下的应用。

比如你可以问它类似于图片的内容: Q:图片中里面有多少个人,分别是谁

文本图像生成领域

Stable Diffusion

Stable Diffusion模型发布以来,“AI文本图片生成”真正的变成普通人也能使用的技术。

特别是在上半年,一些网友利用网上的真人图片,不断喂给模型进行自主学习。其训练出来的效果已经可以做到以假乱真,你甚至不知道哪些图片是AI生成的还是真人拍出来的。

而且开源的Stable Diffusion模型可以简单的部署到自己的电脑上进行使用,真的是免费的开源文生图工具。

Midjourney

除了上面比较出名的文生图Stable Diffusion外,另一个文生图利器当属Midjourney。它使用起来比Stable Diffusion模型要简单,只需要输入文本等待一段时间,就可以获得自己想要的图片。

同时调节图片的命令较为简单,因此很适合普通人快速上手生成图片。

视频生成领域

视频生成领域则是23年年末火起来的,很多有趣的技术,我都在下面这篇文章总结过,如果感兴趣的,可以看看下面这篇文章。

小白如何入门AI视频生成?这里总结了近一年的算法和工具icon-default.png?t=N7T8https://mp.weixin.qq.com/s/-mrQwQGHcGORpXlgLf5z_A

这里面主要介绍几个比较火的软件。

Pika

它是由斯坦福华人博士郭文景研究出的AI视频生成工具。目前在加入其Discord可以免费使用。

在discord网上上,可以上传一张图片进行生成:

可以看到我自己生成的表情包:

不仅仅是可以上传图片,也可以在图片的基础上,写入相应的prompt进行限制:

上传之后可以看到需要等待:

然后生成的gif图像这样:

CoDeF

从官方文档中介绍,CoDef是内容变形场的缩写(content deformation field),它将输入视频分解为2D内容规范场(canonical content field)和3D时间形变场(temporal deformation field):

他们首先按在一张图片上进行转换,然后再转换为视频-视频之间的转换。更重要的是,由于仅在一张图像上部署算法的提升策略,与现有的视频到视频转换方法相比,在处理的视频中实现了卓越的跨帧一致性,甚至能够跟踪非刚性物体,例如水和烟雾。

总结

从2023年爆火的各领域AI来看,他们强大的功能正在进一步提升我们日常的工作效率。同时,由于其入手门槛较低,让普通人也能够接触到最为厉害的AI算法和工具,真正的改变我们的生活。

而AI的进步可能远远不止于此,它在今年的发展和进步让我们所有人感到了震惊。在未来,AI到底会进化成什么呢?没有人可以预估到。但是可以确信的是,AI将会走向更加强大,到时候将会惠及到更多的人,帮助人类解决更加复杂困难的东西。

以上就是这篇文章的主要内容了,我是leo,我们下期再见~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/612923.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

外汇天眼:Options与OneTick合作,共同打造全球SAAS分析平台

Options Technology,一家为全球金融领域提供云服务的托管服务提供商,今天宣布与OneMarketData及其旗舰产品OneTick平台的合作。 Options将使OneTick订户能够访问其庞大的市场数据存储库,包括股票、外汇、期货、期权和固定收益数据&#xff0…

OpenAI GPT商店来了! 创业公司打不过就加入?|对话Agent创业公司S2R

文|郝 鑫 1月10日,OpenAI推出了在线商店“GPT Store”。该商店已于昨日开始向付费用户、团队和企业用户推出,商店汇集了用户为各种任务创建的ChatGPT的自定义版本。 2023年初到年末,Agent就像一位来自异域的吉普赛女郎&#…

linux 网络基础配置

将Linux主机接入到网络,需要配置网络相关设置一般包括如下内容: 主机名 iP/netmask (ip地址,网关) 路由:默认网关 网络连接状态 DNS服务器 (主DNS服务器 次DNS服务器 第三个DNS服务器) 一、…

【System Verilog and UVM实力进阶2】SVA语法

毛主席说过:没有调查就没有发言权。 《SVA介绍——学习SVA语法》系列第二讲 本文还是延续上一篇的风格,语言内容尽可能简单明了,有问题大家相互讨论,共同进步。需要电子书的朋友可以给我发邮件。tommi.weiqq.com 1.16 "ended…

本地远程实时获取无人机采集视频图像(天空端 + jetson nano + 检测分割 + 回传地面端显示)

无线图传设备介绍 2、jetson nano天空端数据采集检测保存 3、本地回传显示 1、无线图传设备介绍 由于本设计考虑将无人机得到检测结果实时回传给地面站显示,因此需要考虑一个远程无线通信设备进行传输。本设计采用思翼HM30图传设备。通过无线图传的wifi将天空端的桌…

2023全球软件研发技术大会(SDCon2023)-核心PPT资料下载

一、峰会简介 本次峰会包含12大会议主题:云原生设施与平台、微服务架构实践、软件质量与效能、大数据实践与前沿、架构设计与演进、高可用与高性能架构、Web与大前端开发、编程语言与平台、AIGC与大模型、推荐系统实践、AI智能应用与研究、机器学习架构实践。 软件…

版本控制背景知识

版本控制背景知识 本文是关于 Git 系列文章的导读,我们先介绍一下版本控制的背景知识。 什么是版本控制 版本控制是一种记录一个或若干文件内容变化,以便将来查阅特定版本修订情况的系统。它将什么时候、什么人更改了文件的什么内容等信息如实记录下来…

HTML---JavaScript操作DOM对象

目录 文章目录 本章目标 一.DOM对象概念 二.节点访问方法 常用方法: 层次关系访问节点 三.节点信息 四.节点的操作方法 操作节点的属性 创建节点 删除替换节点 五.节点操作样式 style属性 class-name属性 六.获取元素位置 总结 本章目标 了解DOM的分类和节点间的…

超市商品管理系统设计 C++实现

超市商品管理系统设计—C实现 文章目录 超市商品管理系统设计---C实现一、内容要求大纲图 二、源代码(包含大量注释)1、main.cpp文件2、supermarket.h文件3、supermarket.cpp文件4、administrator.h文件5、administrator.cpp文件6、user.h文件7、user.cp…

数据结构之单调栈、单调队列

今天学习了单调栈还有单调队列的概念和使用,接下来我将对其定义并配合几道习题进行讲解: 首先先来复习一下栈与队列: 然后我们来看一下单调栈的定义: 单调栈中的元素从栈底到栈顶的元素的大小是按照单调递增或者单调递减的关系进…

Programming Abstractions in C阅读笔记:p242-p245

《Programming Abstractions in C》学习第67天,p242-p245总结,总计4页。 一、技术总结 6.2小结主要讲回溯算法及递归算法在迷宫求解中应用,当然,理解然后用代码实现出来还是有些难度的。不过,这并不影响我们进行下一…

关于目标检测任务中,XML(voc格式)标注文件的可视化

1. 前言 最近在弄关于目标检测的任务,因为检测的图片和标签是分开的,可视化效果不明显,也不知道随便下载的数据集,标注信息对不对。网上看了好多代码,代码风格和本人平时不同,看起来麻烦,也不知…

flutter 通过打包参数区分来 打内网 外网包

内网 # 打包内网环境flutter build apk --dart-defineis_intranettrue --dart-defineis_managerAppfalse 外网 # 打包内网环境flutter build apk --dart-defineis_intranettrue --dart-defineis_managerAppfalse env.dart // main.dart class EnvironmentConfig {// 是否…

RHCE9学习指南 第19章 网络时间服务器

19.1 时间同步的必要性 对于一些服务来说对时间要求非常严格,例如,图19-1所示由三台服务器搭建的ceph集群。 图19-1 三台机器搭建的集群对时间要求比较高 这三台服务器的时间必须要保持一样,如果不一样,就会显示报警信息。那么…

Vue基础-搭建Vue运行环境

这篇文章介绍了在Vue.js项目中进行开发环境搭建的关键步骤。包括node.js安装和配置、安装Vue及Vue CLI工具、安装webpack模板、安装vue-router、创建Vue项目等步骤。这篇文章为读者提供了清晰的指南,帮助他们快速搭建Vue.js开发环境,为后续的项目开发奠定…

已设定选项 ‘readonly‘ (请加 ! 强制执行)

这是vim编辑器报的错误,相信很多人都遇到过。在使用vi编辑一个需要sudo权限的文件后,保存的时候出现这样的错误。这个时候很多人做的事情可能就是不保存退出(敲命令:q!),然后再以sudo vi打开文件重新编辑一次。如果恰巧…

Django的数据库模型的CharField字段的max_length参数与中文字符数的关系探索(参数max_length的单位是字符个数还是字节数?)

01-清理干净之前的数据库迁移信息 02-根据setting.py中的信息删除掉之前建立的数据库 03-删除之后重新创建数据库 04-models.py中创建数据库模型 from django.db import modelsclass User(models.Model):username models.CharField(max_length4)email models.EmailField(uni…

【makedown自带语法技巧】

这里写自定义目录标题 欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants 创建一个自定义列表如何创建一个…

YOLOv8优化策略:轻量化改进 | 华为Ghostnet,超越谷歌MobileNet | CVPR2020

🚀🚀🚀本文改进:Ghost bottleneck为堆叠Ghost模块 ,与YOLOV8建立轻量C2f_GhostBottleneck 🚀🚀🚀YOLOv8改进专栏:http://t.csdnimg.cn/hGhVK 学姐带你学习YOLOv8,从入门到创新,轻轻松松搞定科研; 1.Ghostnet介绍 论文: https://arxiv.org/pdf/1911.11907.…

python数据结构堆栈

堆 堆是一种树形结构:满足两个主要性质 堆是一种完全二叉树:堆中所有层级除了最后一层都是完全填满的,且最后一层的节点都是向左排列堆中的任意节点都不大于(或不小于)其子节点的值,这也是堆的属性 impo…