DALL-E 2的错误揭示出人工智能的局限性

OpenAI的文字图像转换器与文本、科学和偏见作斗争。

在2022年4月,人工智能(AI)研究实验室OpenAI继2021年推出的DALL-E后,又推出了DALL-E 2。这两个人工智能系统都可以根据自然语言的文本描述来生成令人惊奇的图像,包括照片、插图、绘画、动画和其他能用语言表达艺术风格的几乎任何图片(见下图)。DALL-E 2的分辨率更高,处理速度更快,增加的编辑功能能够让用户仅使用文本命令修改已生成图像,例如“把那个花瓶换成植物”或“让狗的鼻子更大一点”。

478f466ab86048c3b86a6cbb144f72d1.jpeg

对于DALL-E 2,全球最初的反应是震惊和欣慰。它可以在几秒钟之内把任何物体和生物组合在一起,可以模仿任何艺术风格,还能描绘任何地点,并且可以刻画各种照明条件。比如说,看到宇航员骑着一匹马的安迪•沃霍尔(Andy Warhol)风格图片,谁能不被感动?不过,随着人们列出可以被这种技术轻易扰乱的行业,也难免出现了一丝担忧。

OpenAI尚未向公众、商业实体乃至整个人工智能社区发布相关技术。OpenAI的研究员马克•陈(Mark Chen):“我们和大家一样担心滥用的问题,而且非常重视这件事。”该公司确实邀请了一些人,针对DALL-E 2进行实验。过去几个月出现的研究结果充分说明了现今深度学习技术的局限性,也给我们打开了一个窗口,了解对于人类世界,人工智能有哪些能够理解,又有哪些完全没有理解。

工作原理

OpenAI在论文预印本网站ArXiv上发布的一篇论文表明,DALL-E 2接受了从互联网上截取的约6.5亿个图像-文本对的训练。通过这个庞大的数据集,它学习图像与描述这些图像的文字之间的关系。OpenAI在训练之前对数据集进行筛选,移除了包含明显暴力、色情和其他恶劣内容的图片。“模型没有暴露这些概念之下。”陈说,“所以它生成未见过内容的可能性非常非常低。”但研究人员明确指出,这种过滤有局限性,DALL-E 2仍然有可能生成有害的内容。

一旦这种“编码器”模型经过训练,可理解文本和图片之间的关系,OpenAI就将它与一个可根据文本提示生成图片的解码器配对,使用一种名为“扩散”的方法,从随机的点图案开始,慢慢改变图案,生成图像。此外,该公司集成了一些过滤器,以便生成的图像符合内容政策,并承诺了不断进行更新。可能产生禁止内容的改变会被阻止,而且为了防止深度伪造,它无法准确地再现在训练过程中见过的面孔(这可部分解释为什么它通常会产生超现实的面孔)。到目前为止,OpenAI还采用了人工审查员检查被标记为可能有问题的图像。

由于DALL-E 2明显有可能被滥用,OpenAI最初授权使用的只有几百人,大多是人工智能研究人员和艺术家。与该实验室的语言生成模型GPT-3不同,即便是有限的商业应用,DALL-E 2 也尚不具备,而且OpenAI也未公开讨论相关计划。不过,浏览DALL-E 2用户创建并发布在Reddit等论坛上的图像,可以发现有些专业应用确实应该引起担忧,例如DALL-E 2擅长的美食摄影、公司手册和网站的图片库,以及适用于宿舍海报或杂志封面上的插图。

问题所在

热心的实验者生成的图像表明,尽管DALL-E 2有很多优势,但关于这个世界,它还需要学习很多东西。以下是3个最明显、最引人关注的错误。

文本: DALL-E 2虽然擅长理解生成图像的文本提示,却很难将可理解的文本放入图像,这一点令人感到费解。用户发现,要求放入任意类型的文本都会产出一堆混乱的字母。珍妮尔•肖恩(Janelle Shane)喜欢在自己的人工智能博客里利用该系统创建公司的徽标,并观察由此产生的混乱。不过,未来的版本可能会纠正该问题,因为OpenAI的GPT-3团队有着丰富的文本生成专业知识。肖恩:“最终,DALL-E的后继者将能够拼写‘松饼屋’(Waffle House),那一天我一定会很伤心的。我还得换一种不同方式来扰乱它、找乐子。”

科学:你可以说DALL-E 2理解一些科学定律,因为它可以轻松地描绘掉落的物体或漂浮在太空中的宇航员。但要求它生成解剖图、X光图、数学证明或蓝图时,它生成的图像看似正确,而实际上却是完全错误的。例如,要求DALL-E 2“按比例绘制太阳系图解插图”,在得到的结果图像中,地球非常奇怪,而且有太多假设的太阳系邻居。“DALL-E不懂什么是科学。它只知道怎样阅读文字说明,然后绘图。”OpenAI的研究院阿迪蒂亚•拉梅什(Aditya Ramesh)说,“因此它不理解其中的含义,而试着编造一些看起来相似的东西。”

f073f9c307dc5403fbd923cf54500cc1.jpeg

偏见:DALL-E 2被认为是一种接受图片和文本训练的多模态人工智能系统,会表现出某种形式的多模态偏见。例如,如果用户要求它生成一名首席执行官、一名建筑工人或者一名技术记者的图片,它通常会根据其在训练数据中看到的图片-文本对来提供男性的图片。在发布DALL-E 2之前,OpenAI要求从事该领域相关工作的外部研究员来充当“红队”,他们的见解有助于OpenAI评估该系统的风险和局限性。他们发现,除了表现有关性别的社会成见,该系统会过多地表现白人和西方传统与环境。

陈认为“我们可以采取某些机器学习缓解措施”来纠正这些偏见,该团队已经采取了一些措施,例如,在训练期间他们发现,由于在训练数据中消除了的色情内容,在建立的数据集中男性要多于女性,这导致DALL-E 2生成更多男性的图像。“所以我们调整了训练方法,并提高了女性图像的权重,使其更有可能生成女性图像。”陈解释道。为了帮助DALL-E 2产生更多样化的结果,用户还可以使用“女性宇航员”或“印度婚礼”等指定性别、种族或地理位置的提示。

总之,DALL-E 2团队表示,他们渴望看到早期用户在测试系统时发现的问题和故障,他们也已经在考虑接下来的工作。“我们非常有兴趣提高系统的整体智能。”拉梅什说,并补充说该团队希望能在“DALL-E中加深对语言及其与世界关系的理解”。他指出OpenAI的文本生成工具GPT-3对普通常识、科学和人类行为有着非常惊人的理解。“一个充满希望的目标是尝试通过DALL-E将GPT-3的知识与图像领域联系起来。”拉梅什说。

作者:Eliza Strickland

5e3b87d33e88c06a5e84123c9468a063.jpeg

IEEE Spectrum

《科技纵览》

官方微信公众平台

cfa0a54ba6246b62f5666f6adedb7e65.jpeg

往期推荐

“编织”属于自己的存储器

电动汽车如何为电网供电

人工智能领域的10大算法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481425.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【搜索/推荐排序】NCF,DeepCross,Deep Crossing,高阶:AutoINt,AFN

文章目录0.交叉特征1.NCF1.1 问题:基于FM的问题问题动机:神经网络替代点积1.2 NCF模型图1.3代码2. Deep Crossing:微软:ResNet3.Deep&Cross4. AutoInt(19)摘要贡献相关工作:模型结构优缺点实…

中国指挥与控制学会关于申请加入《城市大脑系列建设标准规范》第二批团体标准参编单位的通知...

来源:中国指挥与控制学会各有关单位和相关专家:2022年04月14日,中国指挥与控制学会组织召开立项评审会,与会专家审议通过了8个相关团体标准的立项申请。2022年9月1日,《城市大脑系列建设标准规范》首批三项团体标准《城…

【搜索/推荐排序】Pairwise:BPR

1.BPR 1.1 做法 构建样本对假设背后是某个常见模型:如MF排序对成立情况下倒推U/V向量,计算UV乘积,得到完整评分矩阵 矩阵分解:XˉWHT\bar{X}WH^TXˉWHT 贝叶斯:P(θ∣>u)P(>u∣θ)P(θ)P(>u)P(\theta|>_…

见证历史!数学家张益唐北大讲座:本质上已证明“零点猜想”,111页论文已公开...

来源:AI前线整理:凌敏有数论学者表示,张益唐有关朗道 - 西格尔零点猜想的论文结果意义重大,使得以前的很多结果从假设性结果变成了确定性结果。张益唐在北大作“零点猜想”学术报告11 月 8 日上午 9 点,数学家张益唐在…

【搜索排序】召回综述Semantic Models for the First-Stage Retrieval: A Comprehensive Review

Semantic Models for the First-Stage Retrieval: A Comprehensive Review 文章目录管道语义模型1.召回形式化1.0 Indexing MethodsThe inverted index倒排索引approximate nearest neighbor (ANN)1.1 classical term-based retrieval methods,VSM概率方法BIM二元独立模型语言模…

Science 封面 4 文连发:大脑分区不是功能关键!智慧从脑区间连接中诞生

来源:深度学术搜索是时候重新认识一下我们大脑的运行原理了!最新一期顶刊Science,以特刊的形式连发 4 篇论文,剑指同一核心要点:大脑各种功能的关键,并不在于各脑区独立完成特定功能,而在于不同…

【信息检索导论1】布尔模型

1.Information Retrieval 定义: Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers). web search…

一个基于 Transformer 的深度学习架构,在基因调控中组蛋白代码的定量破译方面性能超群...

编辑 | 萝卜皮通过组蛋白修饰对转录控制的定量表征受到许多计算研究的挑战,但其中大多数只关注启动子周围的狭窄和线性基因组区域,留下了改进的空间。韩国首尔大学的研究人员提出了 Chromoformer,这是一种基于 Transformer 的三维染色质构象感…

【搜索排序】预训练综述Pre-training Methods in Information Retrieval

文章目录相关性效率系统预训练word embeddingtransformers2. 召回阶段2.1 Sparse Retrieval Models2.2 Dense Retrieval Models。2.3 混合方式3.re-rank阶段4. 其他组件4.1 在query理解上4.2 在doc理解上:未来工作数据集数据集中排行榜信息检索中的花式预训练综述&a…

i-Refill | 张益唐:虽未实现大海捞针,但摸透了整个海底的情况

来源:IDG资本#i-Refill欢迎回到本周的i-Refill! 我们知道,黎曼猜想是当代数学领域内最重要的待解决问题之一,很多深入和重要的数学及物理结果都将在它成立的大前提下得到证明。10月中,我们围绕数学家张益唐承认已攻克黎曼猜想的弱…

【搜索排序】(ReRank)A Deep Look into Neural Ranking Models for Information Retrieval

文章目录数据集3. 同一框架4. 模型结构-对称与非对称对称结构:s,t可互换siamese networksSymmetric interaction networks,非对称结构query splitdocument splitJoint split,one-way attention mechanism基于表示的模型和基于交互的模型representation-focused arch…

2022全国市域治理与城市大脑峰会开放报名

来源:中国指挥与控制学会未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术…

新的深度学习方法可能有助于预测大脑认知功能

编辑 | 萝卜皮人类大脑结构与认知功能的关系很复杂,而这种关系在儿童期和成年期之间有何不同却知之甚少。一个强有力的假设表明,流体智能(Gf)的认知功能依赖于前额叶皮层和顶叶皮层。在这项工作中,西北大学&#xff08…

哈佛大学教授详解:深度学习和经典统计学差异?

来源:机器学习研究组订阅深度学习和简单的统计学是一回事吗?很多人可能都有这个疑问,毕竟二者连术语都有很多相似的地方。在这篇文章中,理论计算机科学家、哈佛大学知名教授 Boaz Barak 详细比较了深度学习与经典统计学的差异&…

【CTR优化】威尔逊区间

实际&#xff1a;正态分布 采样得到的&#xff1a;不一样 p^\hat{p}p^​:wilson p: 区间相等原则:&#xff08;假设&#xff09; P1/P2都是P,是实际值 做CTR优化时 p^\hat{p}p^​为计算所得CTR点击率/曝光率 优化后的为w- 疑问&#xff1a;why取w-?因为默认P<p(P1<p) …

数字科技与数字经济的数字大脑模型

本文2022年10月发表于中国科学报社《科学新闻》杂志作者&#xff1a;刘锋21世纪是数字科技和数字经济爆发的时代。从2000年开始&#xff0c;社交网络、web2.0等数字科技不断涌现&#xff0c;由此诞生的谷歌、亚马逊、腾讯、阿里巴巴、京东等科技企业构成了日益壮大的数字经济&a…

【hadoop3.2.1】windows10 docker学习环境创建,windows和容器bridge模式下联网,测试例子

本地机器&#xff1a;windows10 虚拟机&#xff1a;centOS7.9 docker创建hadoop学习环境 1.创建docker镜像&#xff08;hadoop&#xff09; 下载centos镜像: docker pull centos 启动一个容器&#xff1a;docker run -td --name base -i centos bash 进入容器&#xff0c;安装…

工信部专家:中国传感器最大的问题是什么?怎么解决?(最新观点)

来源&#xff1a;中国传感器与应用技术大会、河南省智能传感器行业协会、中国电子报、传感器专家网&#xff08;本文仅做综合整理&#xff09;11月11日-13日&#xff0c;首届中国传感器与应用技术大会在深圳市光明区隆重举行。会上&#xff0c;工信部电子元器件行业发展研究中心…

皮亚杰:数学结构和逻辑结构

来源&#xff1a;人机与认知实验室计算是封闭的事实结构&#xff0c;算计是开放的价值组合&#xff0c;计算计是开放性封闭的事实价值混合体——编者按群的概念如果不从检验数学结构开始&#xff0c;就不可能对结构主义进行批判性的陈述。其所以如此&#xff0c;不仅因为有逻辑…

大模型狂欢背后:AI基础设施的“老化”与改造工程

来源&#xff1a;OneFlow社区作者&#xff1a;River Riddle、Eric Johnson、Abdul Dakak翻译&#xff1a;胡燕君、杨婷机器学习模型逐渐发展成人们口中的“庞然大物”。全球顶尖的科技公司纷纷踏上“军备竞赛”之路&#xff0c;立志训练出规模最大的模型&#xff08;MUM、OPT、…