Midjourney V6刷屏,但它最可怕的地方居然不是那些神图?

Midjourney在沉寂九个月后推出了Midjourney V6,这个文生图产品体现出的更细腻的细节处理,更强大的语言理解能力和更加“不像AI”的图片效果在过去几天引发一片惊呼。

作为一个闭源的模型产品,Midjourney的魔法配方并不为人所知,但就像OpenAI和Google一样它会在产品更新时发布官方技术公告,有心人还是可以从中一窥模型能力提升的技术原理。

而我们去扒了扒它透露的信息后,发现这次更新的意义远不止于大家晒的那一张张精美的图片上…….

图片

Midjourney v6生成,电影月光光心慌慌的假剧照,图片源自reddit

图片模型的突破,却靠的是语言模型能力?

“Midjourney v6作为一个“文生图”模型,此次改进的核心能力却来自其自然语言处理能力的提升。

这首先是对提示词理解的’跟随能力’的提升。在其官方文档中,这被称为“prompt following”。简单来说,这就是指系统对用户输入的提示词的理解和响应能力。通过增强这一能力,Midjourney现在能够更好地解析复杂的提示,无论是关键词、命令还是问题,都能够准确把握。

图片

Midjourney v6生成,电影疤面煞星的假剧照,图片源自reddit

第二个显著的更新是提示词的长度。用户现在可以输入更长的提示词。这一方面得益于上面提到的模型跟踪能力的增强,另外则依靠模型连贯性的提升。

所谓连贯性,用一个经典的故事就能解释。A问B:“下午大扫除,你来吗?”B说:“我去!我不去!”那么B的意思毫无疑问是不去,因为上文中的大扫除非常累,而B说的“我去!”在这里则表示惊讶,能够准确理解这个对话,就叫连贯性。它确保了模型在处理用户哪怕很复杂的指令输入时,也能够逻辑一致地响应。

图片

Midjourney v6生成,李奥纳多在网飞出演电视剧的海报,图片源自reddit

这两个自然语言能力上的改进,Midjourney具体是如何做的?

在跟随能力方面的改进,主要基于三个方面:

上下文管理,它通过分析上下文关系来更准确地理解用户意图;序列建模,利用循环神经网络(RNN)和长短时记忆网络(LSTM)来捕捉对话中的长期依赖;以及交互状态跟踪,它持续追踪用户的目标、意图和对话状态,以确保系统响应的连贯性。

这些改进看起来就像是一个大语言模型的进化中在做的事情。

图片

Midjourney v6生成,圣诞夜惊魂版的小丑和哈莉奎茵,图片源自reddit

但它毕竟是个文生图模型,也就是语言能力和图片能力结合的模型,这其实也给它在提升能力时带来了优势——与语言模型的对话产品形态总是涉及隐私与所属的问题不同,Midjourney v6生成的图片目前来看,全部是公共资源。

也就是说你花钱买了服务以后,图片是公共的,模型会生成两份,你拿一份,V6的服务器(也就是V6 discoard)也拿一份。那么Midjouney可以拿这些“实战”反过来加入到自己的预训练大模型中,继续训练模型以提高性能。

图片

Midjourney v6生成,一只猫拿着手枪,图片源自reddit

所以这还引出一个有意思的话题,如果文生图因此而能够源源不断拥有更高质量的数据来反哺到预训练阶段,而数据真的成为模型训练的决定性因素后,是不是文生图模型有可能训练出比大语言模型更强的语言能力?

在连贯性提升上其实就已经有一点这个味道。对于大语言模型来说,想要提高连贯性并不简单,涉及了多方面的因素。但是作为一个使用自然语言来生成图片的模型,事实上简化了过程,由于它不涉及与用户进行持续对话,因此无需应用束搜索等启发式算法,也无需处理自然语言生成中的后处理问题,如语法校正和风格调整。这种简化使得Midjourney在提高连贯性方面只需专注于核心任务,从而显著提升了其在理解和响应用户输入时的逻辑一致性。

图片

Midjourney v6生成,猎魔人杰洛特与超人的结合,二者皆有同一演员亨利·卡维尔饰演,图片源自reddit

懂视觉的模型能有更好的文字能力?

图像模型却靠语言能力突破,这其实已经不是第一次。此前同样引发一阵骚动的Dalle3,也是如此。作为OpenAI的模型,背靠ChatGPT,语言能力自然更强。

在对比了两者后我发现V6在语言理解上其实还是较DALL·E有一定差距。最明显的地方就在于适应性上。适应性代表系统在能适应不同用户的语言风格和表达方式,以及在面对新的或未见过的情况时保持响应连贯性的能力。可能是DALL·E背靠ChatGPT,所以在对自然语言各方面的性能上会更优异一些。

但Midjourney似乎也在瞄着ChatGPT为代表的语言模型的能力来进化。在此次的更新中,V6增加的另一个非常重要的能力,也与语言有关。Midjourney称,其现在拥有了文本绘制能力,虽然依然较弱。

对于人工智能绘图来说,能绘制文本无疑是一项重大进步。

图片

文字不再是乱码。图源:X.com

这个能力并非像看起来那样,直接来自模型里大语言模型的模块。在官方更新里,文本绘制能力后紧随的是图像放大功能的更新。它们原理比较复杂,但本质其实是同一个问题。

图像生成模型在训练的时候所用的数据,是一些通过泛化和模糊处理的图像内容。我们都知道,分辨率越高的图片数据量越大,反之,越模糊越泛化的图片它的数据量就越小。人工智能理解图片的方式和人类完全不一样,他们是按照统计学的一个概念叫做“模式识别”,通过图片中的特征来理解。使用泛化和模糊的图片好处在于,小数据量的图片读取速度快,训练时间就短。但想要用这种训练方式来理解文字是非常难的,因为文字是一种符号,这种泛化处理对于图像中的文字尤其不利,即使是微小的变形或模糊都可能导致文字难以辨认。同时,训练所使用的图像分辨率很低,那么生成图片时,分辨率也不会高到哪里去。

图片

图片上的文字与图像整体风格融合。图片来源:X.com

而Midjourney的训练方法,其实就是在训练它的图像“放大”能力。它所使用的模型叫做去噪扩散概率模型(denoising diffusion probabilistic models),这种模型通过模拟从噪声中提取信息的过程来生成清晰的图像。想象一下,就像我们用软件修复模糊的老照片,Midjourney的模型也能够从模糊的图像中“学习”到清晰的细节。

图片

图片来源:X.com

也就是说,这是像Midjourney这样的图像模型一直在做的事情,训练越久优化越久它的图像“放大”能力就越强,也就会逐渐产生关于文字的生成能力。

在直觉上,这种能力肯定不如“纯粹”的语言模型的语言能力,但一些研究已经在给出不同的指向,在多模态领域很重要的模型VLMO的论文里就曾提到一个有意思的结论,当你完全拿一个在视觉数据上训练好的模型,可以直接对文本数据建模,甚至不需要微调就可以有很强的文本生成能力。但反过来用语言训练在视觉上生成,则差很多。

图片

这也许就是视觉想对文字说的话。图源:X.com

这是一种很奇怪也很有意思的现象,这一次V6似乎把它再一次轻微的展示出来了。而更重要的是在今天多模态大模型已经成为未来最重要的趋势时,一个图像能力为主的模型产生文字能力给了走向多模态一个新的思路。

世界更精彩了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/376860.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

连续内存分区式内存管理

目录前言分区式内存管理动态分区内存管理总结本笔记参考黄工的https://mp.weixin.qq.com/s/k0W_LqI1zBAYC1GU1U2HQA 前言 内存管理模块主要负责内存的初始化、分配以及释放。 从分配内存是否连续可以分为两大类: 1、连续内存管理 为进程分配的内存空间是连续的&a…

用DEVC++作图

小海豚学NOIP,老师说要用DEV C。 小海豚喜欢画图,记得以前用C#编些程序给她看。可前一阵打开看,我的免费Visual Studio过期了。可恶的Microsoft ,不想用盗版难道就要每个月就下载一次? 于是就用DEV C的Windows调用吧。…

Python服务器开发三:Socket

Python服务器开发三:Socket socket是操作系统中I/O的延续,它可以使进程和机器之间的通信成为可能。socket可以看成一个标准的文件描述符。不同的是文件需要用open()函数打开,而socket用socket() 函数建立.recv()、send()函数和read()、write(…

Linux命令常见

摘自: 常考的 21 条 Linux 命令 目录)cd,切换路径ls,查看文件与目录的命令cp,用于复制文件mv,用于移动文件、目录cat,查看文件内容find,文件搜索文件权限命令, 设置权限,-取消权限文本处理命令打包和压缩文件命令进程相…

OSGi.NET 学习笔记 [模块化和插件化][小结]

【目录】-【模块化和插件化】-【小结】 现在我们来对OSGi.NET的“模块化和插件化”做一个小结,再次把官方的说明拿出来  1) 物理隔离:基于UIOSP开发的模块是一个物理隔离的可单独部署的模块,每一个模块拥有独立的文件夹、类型空…

raft算法学习(一):角色概念以及选举过程

Raft算法是强领导模型,集群中只能有一个领导。 下面是raft的视频讲解: raft raft的三种角色及其概念 服务器节点状态一共有三种:领导者(Leader)、跟随着(Follower)、候选人(Candid…

git日常使用教程

目录git日常使用git 基础用法(本地)git branchgit checkoutgit mergegit rebaseHEAD ,在提交树上移动相对引用强制修改分支位置撤销变更整理提交记录提交技巧Git TagsGit Describegit 基础用法(远程)git fetchgit pullgit push偏离的提交历史,十分重要!&…

android一键分享功能不使用任何第三方sdk

在android中有自带的一键分享功能,不过它会把所有带分享的应用都找出来,如果我们只需要一些常见的分享应用,该如何做呢? 下面看我的效果图(横屏和竖屏自动适配): 接下来看我的调用(支…

CMake学习使用(基于vscode)

目录语法一些重要指令CMake常用变量CMake编译工程编译流程两种构建方式实例展示参考: 基于VSCode和CMake实现C/C开发 | Linux篇 语法 基本语法格式:指令(arg1 arg2 …) 参数使用括弧括起来参数之间使用空格或者分号分开 指令是大小写无关的&#xff0…

DNS安全浅议、域名A记录(ANAME),MX记录,CNAME记录

相关学习资料 http://baike.baidu.com/link?url77B3BYIuVsB3MpK1nOQXI-JbS-AP5MvREzSnnedU7F9_G8l_Kvbkt_O2gKqFw7vm http://www.rfc-editor.org/rfc/rfc1035.txt http://www.rfc-editor.org/rfc/rfc3596.txt http://www.rfc-editor.org/rfc/rfc2782.txt http://www.rfc-edito…

【blade利刃出鞘】一起进入移动端webapp开发吧

前言 在移动浪潮袭来的时候,小钗有幸进入框架组做webapp框架开发,过程中遇到了移动端的各种坑,也产生了各种激情,就我们公司的发展历程来说 第一阶段:使用传统方式开发移动站点,少量引入HTML5元素 第二阶段…

Android静态图片人脸识别的完整demo(附完整源码)

Demo功能&#xff1a;利用android自带的人脸识别进行识别&#xff0c;标记出眼睛和人脸位置。点击按键后进行人脸识别&#xff0c;完毕后显示到imageview上。 第一部分&#xff1a;布局文件activity_main.xml [html] view plaincopyprint?<RelativeLayout xmlns:android&qu…

图论:最短路径搜索--Dijkstra算法(c代码实现)

最近因为辞职&#xff0c;有不少闲功夫&#xff0c;重温下数据结构&#xff0c;顺便练练手。今天说说最短路径搜索算法中的Dijkstra原理和实现。 一&#xff1a;简介 这个算法用于解决图中单源最短路径问题。所谓单源节点是指给定源节点&#xff0c;求图中其它节点到此源节点的…

C++多线程快速入门(五)简单线程池设计

目录设计思路主线程运行逻辑task以及taskpool设计详细流程讲解完整代码打印结果往期回顾设计思路 线程池实际上就是一组线程&#xff0c;当我们需要异步执行一些任务时&#xff0c;经常要通过OS频繁创建和销毁线程&#xff0c;不如直接创建一组在程序生命周期内不会退出的线程…

C++网络编程快速入门(一):TCP网络通信基本流程以及基础函数使用

目录流程概述服务器端代码实现客户端代码实现函数和结构讲解sockaddr_in和sockaddrsocket &#xff1a; 创建一个socket连接bind &#xff1a;绑定地址以及端口号问题流程概述 客户端与服务器之间的网络通信基本原理如下所示&#xff0c;复杂一点的架构可能会添加消息中间件。…

使用前端框架Foundation 4来帮助简化响应式设计开发

日期&#xff1a;2013-3-12 来源&#xff1a;GBin1.com Foundation是一套使用广泛的前端开发套件&#xff0c;可以帮助你快速的网站。最近ZURB发布了一个新版本的Foundation 4前端框架&#xff0c;能够有效的帮助你快速的开发响应式的网站。 和另外一个套知名的前端框架BootSt…

C++网络编程快速入门(二):Linux下使用select演示简单服务端程序

目录select参数解释select使用规范select使用缺点基本流程实例代码通信效果演示往期文章select参数解释 extern int select (int __nfds, fd_set *__restrict __readfds,fd_set *__restrict __writefds,fd_set *__restrict __exceptfds,struct timeval *__restrict __timeout)…

Android转载一:Android文件命名规范

REF&#xff1a;http://blog.csdn.net/gulianchao/article/details/23391651 (一) Layout命名 1&#xff0e;contentview命名&#xff1a;activity_功能模块.xml 例如&#xff1a;activity_main.xml、activity_more.xml 2&#xff0e;Dialog命名&#xff1a;dialog_描述.xml …

C++网络编程快速入门(三):阻塞与非阻塞式调用网络通信函数

目录阻塞与非阻塞定义send与recvconnect一些问题为什么要将监听socket设置为非阻塞阻塞与非阻塞定义 阻塞模式指的是当前某个函数执行效果未达预期&#xff0c;该函数会阻塞当前的执行线程&#xff0c;程序执行流在超时时间到达或者执行成功后恢复原有流程。非阻塞模式相反&am…

socket 端口和地址复用

https://blog.csdn.net/weibo1230123/article/details/79978745 https://blog.csdn.net/weixin_42157432/article/details/115560824 在linux socket网络编程中&#xff0c;大规模并发TCP或UDP连接时&#xff0c;经常会用到端口复用&#xff1a; int opt 1; if (setsockopt…