2023年人工智能行业总结

在2023年,人工智能(AI)领域的发展犹如疾风骤雨,令人目不暇接。这一年中,AI领域经历了众多的变革,仿佛将过去十几年的积累在一夜之间彻底释放。今天,我们将通过三条主线来盘点今年AI领域最重要的里程碑,并以此为契机,探索明年AI可能的发展方向。请各位小伙伴们务必点赞关注,以免错过精彩内容。

首先,我们来到了第一条线——语言模型线。简单来说,这是人工智能在聊天方面的应用。去年年底,一款名为ChatGPT的人工智能横空出世,上线短短五天就吸引了100万用户。仅仅两个月后,用户数量便突破了一个亿,创下了史上最快增长纪录。ChatGPT的成功得益于两个技术突破:一是通过人工调教,使其回答人类问题更加自然、不机械;二是发现了大模型的涌现现象。所谓涌现,是指当模型规模较小时并未出现某种能力,但当模型规模达到一定程度后,这种能力突然出现。例如上下文学习能力、思维链能力等。这种现象让大模型的智能水平得到了质的飞跃,仿佛从猴子进化成了人。有时候我也在想,人类意识的起源会不会也是一次进化的涌现呢?

二月Meta发布开源大模型Llama,三月智普发布了开源中文大模型ChatGLM!三月OpenAI发布了GPT4,至今最强模型诞生。三月份百度发布了文心一言,但当时仅能通过内测申请来提供服务。四月阿里发布通义千问模型,五月科大讯飞发布讯飞星火模型。此后,大模型百花齐放,但能力至今都还没有超越GPT4(此处接受反驳)。

九月GPT4V发布,让GPT有了眼睛,可以看图了。而变声模型vits和文本转语音TTS的发展,也让GPT有了耳朵和嘴巴。年底谷歌发布了多模态大模型Gemini,可以理解文字、图片、代码和音视频。大模型从语言开始卷多模态!但还没过年就被爆出Gemini训练数据疑似用了文心一言生成的数据。世界真的像个草台班子啊。

另一条围绕ChatGPT的支线是语言模型的应用生态系统。这条生态线不仅丰富多彩,而且充满了创新和变革。

在今年三月,OpenAI联合向量数据库厂商推出了插件体系,为ChatGPT增加了联网功能和代码解释器。这一创新引发了广泛的关注,使得向量数据库厂商成为了市场的宠儿。同时,也催生出了像langchain这样的语言模型框架,使得语言模型不再仅仅是一个简单的聊天工具。在这个生态系统中,语言模型被赋予了更多的功能。它们可以检索知识库、使用工具,甚至相互协作完成某一任务。这种智能体Agent的概念开始盛行,人们看到了语言模型在未来的巨大潜力。

故事总有但是,但是,在今年11月,OpenAI在开发者大会上宣布了GPT开始内建向量数据库,并内置了向量检索功能。同时,他们还发布了Assistants API,封装了Agent的各项能力。这一系列的举措无疑是对插件服务商的一次重击。好不容易被培养起来的用户,一把就被OpenAI给薅没了。在这个过程中,值得注意的是山姆奥特曼的命运转折。他先是离开了OpenAI,但又很快重新回归。这也反映了当下语言类大模型领域中各个公司和个人的命运起伏。

说完了语言模型线,今年AI发展的第二条主线是绘画线,也就是AI画图。

从AI绘画工具看,依旧是三分天下。Midjourney依旧是简单易用、高画质的代名词,今年从V4升级到了V5,现在马上要出V6,生成的图片也更加稳定自然,对于光影的把控简直令人发指。摄影师看了都直摇头,年初比较火的马斯克在苏联和钢铁侠炸油条系列就是Midjourney的作品。

然后是StableDiffusion以其免费、开源、可定制性的多样玩法,牢牢占据了三分天下有其一的地位。不仅各种插件层出不穷,光是各种Checkpoint和Lora模型都撑起了一个千万市值的C站,赛博朋克风格,二次元萌妹、机甲风、国风、甚至建筑图、Logo制作、头像制作等等等等,不管你喜欢什么画风,只需一个Lora,就能源源不断的生成图片。今年8月份妙鸭相机火出圈,其底层就是一个证件照风格的Lora,可以省下一大笔海马体照相馆的钱。而controlnet则是稳居SD插件榜首。

ControlNet是什么?通俗点来说,如果要画一幅画,一方面是构图,一方面是风格。ControlNet就是用来控制构图的,Checkpoint和LoRA模型就是用来控制风格的。

ControlNet可以控轮廓,控表情、控姿势、控景深,从各种角度控制画面的内容,所以大家要是想从事AI绘画那就必学ControlNet。

而底模方面,SD也从1.5升级到了SDXL,画质得到了巨大提升。

这AI绘画的最后一块版图,就是dalle了,dalle的定位有点尴尬,论画质卷不过midjourney,论可控性卷不过SD. 今年上半年一度已经淡出人们视野了。但随着dalle3的发布,画质又重回第一梯队,而下半年openai更是直接将dalle3的绘画能力集成到了ChatGPT当中,dalle重生了。目前dalle3的定位也是简单易用,而且还有成熟的API体系和语言模型的支持。

AI绘画的三国江湖明年将如何演变,我们拭目以待。但无论哪种工具,目前还都有一个致命的缺陷亟待解决,那就是生成的形象在前后画面中的不一致问题。现在很多商用的AIGC产品都卡在这一关,一旦突破,必将掀起新一轮的应用浪潮。想创业的明年可以重点关注在这条线。现在网上也有很多AI绘画的培训课程,入门版都不贵,大家可以先花小钱看看,确定了自己的方向和爱好之后,再深入研究。最后给想入门AI绘画的新人几个关键词:秋叶大佬、Nenly同学、WebUI、ComfyUI、liblib.ai。

今年AI发展的第三条主线是视频线。在这个领域,AI技术不断创新,为我们带来了诸多惊喜。

年初的so-vits项目成为了关注的焦点,它能够通过几个小时的音频,完美模拟出人的声音特点,实现了让机器模仿音色的目标。这项技术的实际使用在B站爆火的AI孙燕姿上得到了体现。通过对孙燕姿的专辑进行分离和声音提取,经过训练后,AI孙燕姿竟然能够唱周杰伦的歌,而且听起来非常动人。

除了so-vits项目,还有一项令人惊叹的技术是sad talker。它只需要给AI一张图片,经过训练后就能让图片开口说话,甚至还能眨眼。这种技术的出现让人感觉图片中的人物仿佛真的活了一样,今年的小和尚说话就是使用了sad talker技术。

Wav2Lip技术也值得一提。作为Deepfake领域的一把好手,它能够修改视频的唇形,实现生成的视频人物口型与输入语音同步。这种技术让视频中的人物口型与语音更加协调,增加了视频的真实感。

最近很火的叫Heygen的产品将多项技术整合在一起,让人物用自己的声音说出任何你想让他说的话。这款产品的原理是先分离视频中的音频,然后使用so-vits技术学习说话人的音色,接着将任何说话脚本或原文翻译成音频并赋予说话人的口音。最后,通过对口型技术对视频进行修改整合,实现让郭德纲说英语相声的效果。整个过程看起来非常和谐且流畅,让人感觉这段话就是视频中人物说的。

此外,还有一些其他值得关注的技术。例如,Meta开源的Whisper项目能够识别世界上大部分主要语言的视频语音;Roop和FaceFusion两款开源换脸软件不仅能直接给图片和视频换脸,还能将多张图片融合成一张脸;AnimateDiff能够将两张美女跳舞的不同动作图片转换成一段动画,也就是说给出视频关键帧,就可以生成一段视频。

年底时,SD团队发布了SVD模型,这个模型只需要几句描述文字就能让静态画面动起来。这一技术的出现给创意设计带来了更多可能性。

虽然这些技术给人们带来了诸多便利和创新体验,但我对此仍有些担忧。对于我们这些了解这些技术的人来说,真假难辨,更不用说普通人了。AI给了我们一把利剑,但我们也要思考如何防止坏人使用它。

回顾2023年AI领域的发展,我们见证了技术的飞速进步和广泛应用。面对未来,我们期待AI能更好地服务于人类,同时也希望各方共同努力,确保技术的发展与道德伦理相协调,为人类创造更加美好的未来。

2023年人工智能行业总结 - AI魔法学院

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/584163.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GLTF编辑器-位移贴图实现破碎的路面

在线工具推荐: 3D数字孪生场景编辑器 - GLTF/GLB材质纹理编辑器 - 3D模型在线转换 - Three.js AI自动纹理开发包 - YOLO 虚幻合成数据生成器 - 三维模型预览图生成器 - 3D模型语义搜索引擎 位移贴图是一种可以用于增加模型细节和形状的贴图。它能够在渲染时针…

JavaWeb——前端之JSVue

接上篇笔记 4. JavaScript 概念 跨平台、面向对象的脚本语言,使网页可交互与Java语法类似,但是不需要变异,直接由浏览器解析1995年Brendan Eich发明,1997年成为ECMA标准(ECMA制定了标准化的脚本程序设计语言ECMAScr…

配置git免密push

git免密码提交 创建.git-credential文件, 创建文件,进入文件,输入内容: cd ~ touch .git-credentials vim .git-credentials 输入内容 https://{username}:{password}gitee.com 实际输入中,用户名,密码没…

SQL Server的聚合函数、SQL Server的联合查询、SQL Server的左连接右连接内连接

一、SQL Server的聚合函数 在SQL Server中,常用的聚合函数包括: COUNT:计算指定列中非NULL值的数量。SUM:计算指定列中数值的总和。AVG:计算指定列中数值的平均值。MIN:计算指定列中的最小值。MAX&#x…

[CSP-J2019] 公交换乘

[CSP-J2019] 公交换乘 题目描述 著名旅游城市 B 市为了鼓励大家采用公共交通方式出行,推出了一种地铁换乘公交车的优惠方案: 在搭乘一次地铁后可以获得一张优惠票,有效期为 45 分钟,在有效期内可以消耗这张优惠票,免…

vue计算属性和侦听器

computed 模板内的表达式非常便利,但是设计它们的初衷是用于简单运算的。在模板中放入太多的逻辑会让模板过重且难以维护,对于任何包含响应式数据的复杂逻辑,你都应该使用计算属性。 计算属性与methods区别: computed是带缓存的…

Unity Shader-真实下雨路面

Unity Shader-真实下雨路面 简介素材1.准备插件Amplify Shader Editor(这里我使用的是1.6.4最新版)2.贴纸和切图d 一、创建一个Shader Surface,实现气泡播放效果二、叠加一次气泡播放效果,使其看起来更多,更无序三、小…

新火种AI|AI正在让汽车成为“消费电子产品”

作者:一号 编辑:小迪 AI正在让汽车产品消费电子化 12月28日,铺垫许久的小米汽车首款产品——小米SU7正式在北京亮相。命里注定要造“电车”的雷军,在台上重磅发布了小米的五大自研核心技术。在车型设计、新能源技术以及智能科技…

手把手带你入门本地AI绘画(Stable Diffusion)

AIGC现如今可谓是如日中天,AI绘画算是其中最火的其中之一了。现在的AI绘图工具也是百家争鸣,不管是网页端,APP端,还是小程序端,都能看到各种各样的AI绘图工具,他们多是需要你发送关键词或绘图命令到他们的服务器,然后由服务器渲染完成之后返图给你,所以一定会占用他们的…

概率论相关题型

文章目录 概率论的基本概念放杯子问题条件概率与重要公式的结合独立的运用 随机变量以及分布离散随机变量的分布函数特点连续随机变量的分布函数在某一点的值为0正态分布标准化随机变量函数的分布 多维随机变量以及分布条件概率max 与 min 函数的相关计算二维随机变量二维随机变…

机器学习笔记--半监督节点分类:标签传播和消息传递

斯坦福大学CS224W图机器学习笔记 学习参考 CS224W公开课:双语字幕 斯坦福CS224W《图机器学习》课程(2021) by Jure Leskove 官方课程主页:官方主页 子豪兄精讲:斯坦福CS224W图机器学习、图神经网络、知识图谱 同济子豪兄 子豪兄公开代码:同济子豪兄CS224W公开课 基于…

4-链表-合并两个有序链表

这是链表的第4题,来个简单算法玩玩。力扣链接。 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例 1: 输入:l1 [1,2,4], l2 [1,3,4] 输出:[1,1,2,3,4,4]示例 2&#xff…

JS 嵌套循环之退出顶层循环

我们常常写循环的时候&#xff0c;可能会遇到嵌套循环&#xff0c;如果出现退出循环&#xff0c;一层还好&#xff0c;多层循环就费劲了&#xff0c;传统做法是加 flag&#xff0c;如下&#xff1a; for (let i 0; i < 10; i) {let flag falsefor (let j 0; j < 5; j…

【Angular 】Angular 模板中基于角色的访问控制

您是否在Angular模板中实现角色库访问控制&#xff1f;一种方法是通过*ngIf&#xff0c;但我不会选择该路径&#xff0c;因为它将在Angular模板中包含自定义函数&#xff0c;并且很难维护。正确的方法是使用Angular结构指令&#x1f680;. 什么是RBAC&#xff1f; 基于角色的…

MySQL常见面试题汇总

Java面试题总结 MySQL面试题 MySQL 字段类型 整数类型的 UNSIGNED 属性有什么用&#xff1f; CHAR 和 VARCHAR 的区别是什么&#xff1f; VARCHAR(100)和 VARCHAR(10)的区别是什么&#xff1f; DECIMAL 和 FLOAT/DOUBLE 的区别是什么&#xff1f; 为什么不推荐使…

自然语言处理(第16课 机器翻译4、5/5)

一、学习目标 1.学习各种粒度的系统融合方法 2.学习两类译文评估标准 3.学习语音翻译和文本翻译的不同 4.学习语音翻译实现方法 二、系统融合 以一个最简单的例子来说明系统融合&#xff0c;就是相当于用多个翻译引擎得到不同的翻译结果&#xff0c;然后选择其中最好的作为…

【网络安全 | XCTF】2017_Dating_in_Singapore

正文 题目描述&#xff1a; 01081522291516170310172431-050607132027262728-0102030209162330-02091623020310090910172423-02010814222930-0605041118252627-0203040310172431-0102030108152229151617-04050604111825181920-0108152229303124171003-261912052028211407-0405…

如何有效使用 .gitignore 文件

在任何使用 Git 的软件项目中&#xff0c;.gitignore 文件都是一个必不可少的工具。它帮助开发者定义哪些文件和目录应该被 Git 忽略&#xff0c;从而保持代码库的整洁和管理的简便性。 什么是 .gitignore&#xff1f; .gitignore 文件是一个文本文件&#xff0c;您可以在其中指…

Linux开发工具——gdb篇

Linux下调试工具——gdb 文章目录 makefile自动化构建工具 gdb背景 gdb的使用 常用命令 总结 前言&#xff1a; 编写代码我们使用vim&#xff0c;编译代码我们使用gcc/g&#xff0c;但是我们&#xff0c;不能保证代码没问题&#xff0c;所以调试是必不可少的。与gcc/vim一样&…

CSS日常总结--CSS伪类

CSS日常总结–CSS伪类 文章目录 CSS日常总结--CSS伪类前言1.结构性伪类:1. :first-child&#xff1a;选择父元素下的第一个子元素2. :last-child&#xff1a;选择父元素下的最后一个子元素3. :nth-child(n)&#xff1a;选择父元素下的第n个子元素4. :nth-last-child(n)&#xf…