AI作画的业界天花板被我找到了,AIGC模型揭秘 | 昆仑万维

一、前景

1、AI和AIGC的关系

人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

AIGC是继 UGC、PGC 之后新型利用AI技术自动生成内容的生产方式。

img

2、AIGC的市场目前分类有哪些

目前市场上AIGC一般可分为文本类、代码类、绘画类等等,那目前市场上有哪些公司在AIGC的绘画和文本和代码这些方向做得非常顶尖水平呢?当然有,那就是昆仑万维,让我们看下他们的AIGC能力怎么样。

二、昆仑万维的AI作画简单体验

​ 电脑PC端体验地址:https://sky-paint.singularity-ai.com/index.html#/

​ 都让我们也可以用小程序,功能和PC效果一样。

​ 小程序:天工巧绘SkyPaint

1、使用系统自带的关键字绘制

在主页,我们可以直接明了的看到 “生成画作”按钮,我们选一个“童话时间 白雪皑皑 圣诞节”的主题来进行AI绘制。

img

图片生成中

img

效果如下:

img

出现了4张圣诞节图片,非常清晰、操作也非常简单,最关键的是生成图片速度非常快,非常丝滑,一点也不卡,直接惊艳到我了。

2、输入中文关键字绘制

我们输入“水天一色”这4个字,绘制效果如下。

img

3、输入英文关键字绘制

我们输入"red sky”英文,绘制效果如下。

img

小结:从体验上讲,生成图片的速度非常快,并且能很好的支持中英双语提示词输入实现文字生成图像。

三、昆仑万维的AI作画的核心竞争力

1、基于Stable Diffusion 模型

Model:Latent Diffusion

Paper:High-Resolution Image Synthesis with Latent Diffusion Models

训练集:LAION-high-resolution 和 LAION-Aesthetics

模型结构图:

img

模型原理

img

模型训练

训练目标:一步步对随机的高斯噪声降噪(denoise)

img

优势:Latent diffusion 之所以是 “latent”,是因为模型是在低维的潜空间(latent space)上进行扩散过程,而不是在实际的像素空间,从而降低了内存消耗和计算复杂度(比如输入shape是(3,512,512),下采样因子是8,潜空间中变成了(3,64,64),节省了8×8=64倍的内存)。训练完之后的模型就能把一张图表示成一个低维的潜特征。

模型推理

如图(假设batch size是1),用户输入的 prompt 被 CLIP Text encoder 编码为 77×768 的潜特征,随机噪声被表示成 64×64 的潜特征;然后 U-Net 以 prompt 的特征为条件,逐步迭代计算。U-Net 输出的噪声残差,会通过调度算法(scheduler algorithm),根据先前的噪声表示和预测的噪声残差,计算最终去噪的图像潜表示。Stable Diffusion 建议的调度算法有三种:

PNDM scheduler(Pseudo Numerical Methods for Diffusion Models on Manifolds,默认)

DDIM scheduler

K-LMS scheduler

得到图像潜表示后,就可以送到 VAE 的 decoder 解码成图像了。

img

2、Stable Diffusion 算法模型的绝对优势在哪里?

• Stable Diffsuion能压缩率更高,清晰度超越JPEG等算法。

• 与纯粹基于transformer的方法相比,本文方法更适合高维数据;还可以高效地应用于百万像素图像的高分辨率合成。

• 显著降低计算成本,在多个任务(无条件图像合成、inpainting、超分辨率)和数据集上实现了具有竞争力的性能。与基于像素的扩散方法相比,显著降低了推理成本。

• 与之前的工作(同时学习编码器/解码器架构和score-based的先验)相比,方法不需要对重构和生成能力进行精确的权衡。这确保了仅需非常少的潜空间正则化下,即可有较合理的重建效果。

• 对于超分辨率、图像修复和语义合成等条件密集输入型的任务,模型能以卷积的方式应用,并输出高达1024分辨率的图像。

• 基于交叉注意力的通用条件机制,实现了多模态训练。用它来训练类条件模型、文本到图像模型和布局到图像模型。

• Stable Diffsuion制作图片速度非常快。

总之只需训练一次通用的自动编码阶段,就可以用于多次DM训练或探索可能完全不同的任务,比如各种图像到图像、文本到图像任务。对于后者,设计了一个将transformers连接到DM的UNet骨干的结构,并支持任意类型的基于token的条件机制,就像有人已经投入了上百万的资金帮你训练了一个,你又何必重新花钱训练一个压缩模型呢?

3、昆仑万维在AI绘画上的其它技术优势

1)、在增加中文提示词输入能力的同时兼容原版stable_diffusion的英文提示词模型,之前用户积累的英文提示词手册依然可以在我们的模型上使用

2)、使用1.5亿级别的平行语料优化提示词模型实现中英文对照,不仅涉及翻译任务语料,还包括了用户使用频率高的提示词中英语料,古诗词中英语料,字幕语料,百科语料,图片文字描述语料等多场景多任务的海量语料集合

3)、 训练时采用模型蒸馏方案和双语对齐方案,使用教师模型对学生模型蒸馏的同时辅以解码器语言对齐任务辅助模型训练"

我们可以看下文字生成图片模型指标评估数据

评估背景:

  1. 评估benchmark:采用Chinese-CLIP(CN_CLIP),先根据模型的encoder得到text和image的embedding,再经过统一的KNN检索,Recall,从而计算出检索任务的Recall@1/5/10和mean recall(Recall@1/5/10的平均数),得到如上结果

  2. 评估数据集:Flickr30K-CN的test数据集

  3. 采用同级别image encoder模型:ViT-L/14"

img

未来的模型优化

为了让体验和算法模型变得更加强大,后续我们会针对下面4点去完善,希望能保持业界最高端水平。

• 更多语言的提示词输入支持

• 更强大的语言生成模型指导图像生成

• 风格更加多样,增加更多艺术风格的支持

• 支持用户对生成的图像进行二次提示词编辑图像功能

五、昆仑万维的文本和代码创造

1、昆仑万维的文本创造

1)、基于GTP-3模型

img

昆仑万维模型针对中文领域构建了千亿级别的高质量数据集,通过高性能 a100-GPU 集群训练得到了百亿

参数量的 GTP-3 生成模型,其几乎可以用于任何涉及理解或生成自然语言或代码的任务,同时提供了一

系列具有不同参数级别的模型,根据同任务进行适配,同时,也可以微调模型的得到适合需求的生成模

型。

文本模型指标评估

img

2)、GTP-3模型的绝对优势在哪里?

• GPT-3模型像人类一样对词语做出自己的理解

• GPT-3模型根据用户的喜好创作文学作品

• GPT-3模型根据用户的需求编写代码

• GPT-3比GPT-2有更好的文字质量,比GPT-2功能更加强大

• GPT-3模型可以进行创造性写作,展示了诗歌,对话文体,双关语使用,文学模仿和小说是其它模型不可比拟的

• GPT-3模型不是以传统的方式来使用已经存在的文本进行训练从而模仿文本,而可以通过对话方式告诉GPT-3用户想要什么样的内容。

总之通过了大部分课程的写作测试,而且仅仅需要 3-20 分钟,并且其中大部分时间用于对文本的输出长度和重复文本进行编辑。模型拥有多样的下游能力,包括续写,对话,中英翻译,内容风格生成,推理,诗词对联等。并在各项专业性领域的任务中(例如分类,匹配,填空,识别,识别)表现突出,与现有大模型的比试中排列前茅。

3)、昆仑万维丰富的使用场景分类

我们可以点击这个这里体验:https://openapi.singularity-ai.com/index.html#/examplesIndex

img

支持多种语言,这里我们使用 “内容续写” 使用下面的接口请求就行了,使用非常方便。

JSON{ “model_version”: “模型版本”, “prompt”: “写一篇小文章。\n今天的天气不错,我的心情”, “param”: { “generate_length”: 500, “top_p”: 0.9, “top_k”: 50, “repetition_penalty”: 1.3, “length_penalty”: 1, “min_len”: 10, “temperature”: 1, “end_words”: [ “[EOS]” ] }}

2、昆仑万维的代码创造

我们可以点击下面的地址进行体验

https://sky-code.singularity-ai.com/index.html#/

1)、Sky-cod3 代码生成工具介绍

昆仑万维开发了全球第一款多语言开源编程大模型 Sky-code 代码生成工具,其支持各种主流编程语言,包括 java 、 javascript 、 c 、 c++ 、 python 、 go 和 shell 等编程语言,可以帮助开发人员更快更好的编码,甚至模型每秒可以输出百字以上的代码量,并且 Sky-code模型的代码质量非常高,下表对比了 Sky-code 模型与其他代码生成模型的性能:

img

轻松上手

我们可以把sky-code安装到各个代码平台的编译器里面去,通过插件方式进行扩展,比如Visual Studio Code等。

img

2)、Sky-code的绝对优势

Sky-code 是 SingularityAI 研发的一款AI代码生成工具,支持各种主流编程语言,助力开发人员更快更好的编码。Sky-code 可以直接集成到编辑器中,无缝衔接在开发环境,在键入代码的同时,智能高效补全代码,提升工作效率,节省开发时间。 Sky-code 目前已经集成在了 Visual Studio Code 中,未来会支持更多平台和工具,如 Neovim、JetBrains IDE、Visual Studio 等。致力于为开发者解决琐碎的、重复性的代码工作,从而专注于更高价值的研发工作,这是其它工具不可代替的。

六、总结

通过上面的介绍,我们知道昆仑万维的AIGC无论是绘画还是文本还是代码生成,都拥有着非常强大和快而精准的算法模型,同时支持多语言进行绘画、和文本以及代码处理,简直就是业界的天花板, 强烈推荐大家使用。

昆仑天工开源地址:

Github https://github.com/SkyWorkAIGC

Huggingface https://huggingface.co/SkyWork

相关网站:
天工巧绘SkyPaint:
https://sky-paint.singularity-ai.com
天工智码SkyCode:
https://sky-code.singularity-ai.com
天工妙笔SkyText:
https://openapi.singularity-ai.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/284836.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【ArcGIS微课1000例】0022:ArcGIS点(点坐标)自动连成线操作案例教程

ArcGIS中,可以将带三维坐标(X、Y、Z)的点/点集自动连成线,本文演示具体操作流程。 文章目录 实战演练GPS点数据下载实战演练 打开ArcMap软件,添加实验文件夹0022下的GPS轨迹点.shp矢量点数据(文末提供下载地址),该数据是由GPS RTK采集的河道点数据,首先需要将GPS点坐…

微信公众号 文章的爬虫系统

差不多俩个星期了吧,一直在调试关于微信公众号的文章爬虫系统,终于一切都好了,但是在这期间碰到了很多问题,今天就来回顾一下,总结一下,希望有用到的小伙伴可以学习学习。 1、做了俩次爬虫了,第…

OAuth认证与授权

什么是OAuth授权? 一、什么是OAuth协议OAuth(开放授权)是一个开放标准。允许第三方网站在用户授权的前提下访问在用户在服务商那里存储的各种信息。而这种授权无需将用户提供用户名和密码提供给该第三方网站。OAuth允许用户提供一个令牌给第三方网站,一个…

SegmentFault Hackathon 文艺复兴

我有一个 idea,我想实现它,我正实现它,我已实现它。世界上存在一些好奇心旺盛、不爱墨守成规的人,略微偏执但又极度投入的他们崇尚自由,热衷用技术实现自己的想法,他们带着不羁的态度生活,利用编…

卧槽!VS Code 上竟然也能画流程图了???

作为一款开源的主流代码编辑器,VSCode 在发布之后一直受到不少开发者的喜爱。 此前,我们也曾在公众号上分享过多篇文章,向大家推荐了不少 VSCode 上比较实用(或沙雕)的插件。因此,有很多水友也经常调侃道&…

【QGIS入门实战精品教程】14.1:QGIS如何加载各种在线地图?

文章目录 一、XYZ Tiles连接方式二、插件添加三、WMS/WMTS/OWS连接方式一、XYZ Tiles连接方式 1. 加载OpenStreetMap QGIS默认可以加载OpenStreetMap地图。在左侧点击XYZ Tiles,默认下面有个OpenStreetMap选项,双击打右侧会显示地图,如下图所示: 在OpenStreetMap上右键→…

SkiaSharp 之 WPF 自绘时钟(案例版)

SkiaSharp是一个跨平台2D图形API,用于.NET平台,基于Googles Skia Graphics库(skia.org网站). 它提供了一个全面的2D API,可以跨移动、服务器和桌面模型来渲染图像。该图形库可实现获取指定坐标像素值、绘制2d图形、绘制文字(必须有…

推荐一简单易用的脑图制作工具

幕布是什么? 大纲文档工具,管理你的大脑层级折叠文字,结构化思考助手一键转换思维导图并编辑,效率翻倍幕布可以做什么? 大纲笔记,思维整理 学习笔记清单工具 管理日程管理待办购物清单等等内容创作会议记录…

【QGIS入门实战精品教程】4.5:QGIS打开Excel中的点坐标,并生成矢量文件

QGIS中可以很方便添加Excel或其他文本格式的点坐标,并将其转为矢量等多种格式的文件。 扩展阅读: 【ArcGIS风暴】ArcGIS 10.2导入Excel数据X、Y坐标(经纬度、平面坐标),生成Shapefile点数据图层 文章目录 1. 数据准备2. 添加数据3. 保存文矢量文件1. 数据准备 本实验使用…

腾讯云EKS 上部署 eshopondapr

腾讯云容器服务(Tencent Kubernetes Engine,TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务。腾讯云容器服务完全兼容原生 kubernetes API ,扩展了腾讯云的云硬盘、负载均衡等 kubernetes 插件&…

[转]一往无前 | 小米十周年,雷军公开演讲全文

2020年8月11日19:30,小米十周年,雷军公开演讲如约而至。在近3小时的演讲中,雷军用20个故事回顾了小米过去的热血10年,也展望了新的10年: - 创新之火将会照亮每个疯狂的想法,小米将成为工程师向往的圣地。 -…

JAVA单例之我见

为什么80%的码农都做不了架构师?>>> 单例模式作为设计模式中最简单的一种,是一个被说烂了的东西。但是在项目中还是会发现关于单例模式的一些错误实现,可见单例也并不是我们想象的那么简单。最近陆陆续续看了几篇关于单例的博客&…

「刘一哥GIS」系列专栏《QGIS入门实战精品教程(配套案例数据)》

「刘一哥GIS」系列专栏《QGIS入门实战精品教程(配套案例数据)》全新上线了,欢迎广大GISer朋友关注,一起探索GIS奥秘,分享GIS价值! 本专栏以实战案例的形式,深入浅出地介绍了QGIS的基本使用方法&…

MyEclipse的Git配置

1.下载:git的插件egit 并解压 插件 下载地址:http://www.eclipse.org/egit/download/ 所有版本:http://wiki.eclipse.org/EGit/FAQ#Where_can_I_find_older_releases_of_EGit.3F 2.在MyEclipse安装目录下的dropins文件夹下创建egit文件夹 3.…

VSCode 插件开发实例(WebView):微信读书 ^-^边撸代码边看小说^-^

最终效果 主要代码 package.json {"name": "WeReadForVSCodeJackieZheng","repository": {"type": "git","url": "https://github.com/JackieZheng/WeReadForVSCode.git"},"displayName": &q…

【QGIS入门实战精品教程】4.7:QGIS如何将矢量数据转为GeoJSON格式?

本文以案例的形式,讲述在QGIS专业软件中,将矢量数据转为GeoJSON的方法。 扩展阅读: 【ArcGIS风暴】如何将矢量数据(点、线、面)折点坐标转为GeoJSON格式? 在QGIS中,可以直接将数据导出为GeoJSON格式。具体操作方法是:右键矢量数据图层→导出图层→到文件,如下图所示:…

Git的纯命令操作,Install,Clone , Commit,Push,Pull,版本回退,撤销更新,分支的创建/切换/更新/提交/合并,代码冲突...

Git的纯命令操作,Install,Clone , Commit,Push,Pull,版本回退,撤销更新,分支的创建/切换/更新/提交/合并,代码冲突 这篇是接着上篇分布式版本库——Windows下Git的环境部署以及在Git…

【QGIS入门实战精品教程】3.3:QGIS如何打开ArcGIS创建的文件数据库(GDB)?

在行业应用中,GIS地理空间数据往往存储在ESRI ArcGIS的文件地理数据库(File GeodataBase),因此,ArcGIS与QGIS的数据交互、共享就显得非常重要。QGIS3可以直接打开File GDB数据,并对数据进行显示、查看、处理等操作。具体的步骤如下: 相关阅读:【QGIS入门实战精品教程】3…

.NET 6 Linux 系统服务 Systemd (案例版)

.Net Core Windows 系统服务,之前已经写过了,但是,对于Linux的系统服务,却没有写过,主要是因为,大部分Linux的.Net服务都直接Docker了,当然,不排除有这种使用的,可能搞成…

[转]IaaS、PaaS、SaaS、CaaS、MaaS五者的区别

云计算构架图 很明显,这五者之间主要的区别在于第一个单词,而aaS都是as-a-service(即服务)的意思,这五个模式都是近年来兴起的,且这五者都是云计算的落地产品,所以我们先来了解一下云…