人工智能,“抛弃”真实数据集?

1aa8d6de5ae12d350ebcea8c41c28fc8.png

来源:学术头条

当前,人工智能技术已经应用在我们日常生活中的方方面面,比如人脸识别、语音识别、虚拟数字人等。

但普遍存在的一个问题是,科研人员要想通过训练一个机器学习模型来执行某一特定任务(比如图像分类),往往需要使用大量的训练数据,而这些数据(集)却并不总是很容易获得。

比如,如果研究人员正在训练一辆自动驾驶汽车的计算机视觉模型,但真实数据可能不会包含一个人和他的一条狗在高速公路上奔跑的样本,一旦遇到这种情况,模型就不知道该如何做,可能会产生不必要的后果。

而且,使用已有数据生成数据集,也会花费数百万美元。

另外,即使是最好的数据集,也常常包含对模型性能产生负面影响的偏见。

那么,既然获得、使用一个数据集代价这么昂贵,能不能在保证模型性能的前提下,使用人为合成的数据来训练呢?

近日,一项来自麻省理工学院(MIT)科研团队的研究显示,一种使用合成数据训练的图像分类机器学习模型,可以与使用真实数据来训练的模型相媲美,甚至性能更好。

相关研究论文以“Generative models as a data source for multiview representation learning”为题,以会议论文的形式发表在 ICLR 2022 上。

1b9abe3d55f6b5b7c0d5fee2a70bac97.png

219f9d6ae5690b0ee514caf83d138db8.png

不输于真实数据

这种特殊的机器学习模型被称为生成模型(generative model),相比于数据集,存储或共享所需的内存要少得多,不仅可以避免一些关于隐私和使用权的问题,也不存在传统数据集中存在的一些偏见和种族或性别问题。

据论文描述,在训练过程中,生成模型首先会获取数百万张包含特定对象(比如汽车或猫咪)的图像,然后学习汽车或猫咪的外观,最后生成类似的对象。

简单来说就是,研究人员使用一个预先训练的生成模型,参照模型训练数据集上的图像,输出大量独特的、真实的图像流。

8f8a32269917b980fa05fe808524f37c.png

(来源:Pixabay)

研究人员表示,一旦生成模型在真实数据上进行训练,就可以生成几乎与真实数据无法区分的合成数据。

另外,生成模型还可以基于训练数据做进一步拓展。

如果生成模型是基于汽车图像进行训练的,它就可以“想象”出汽车在不同情况下是什么样的,然后输出具有不同颜色、大小和状态的汽车图像。

生成模型具备很多优点,其中之一便是,它在理论上可以创建无限数量的样本。

基于此,研究人员试图搞清楚样本数量如何影响模型性能。结果显示,在某些情况下,大量的独特样本确实会带来额外的改进。

而且,在他们看来,生成模式最酷的一点在于,我们可以在在线资料库中找到并使用它们,而且不需要干预模型就可以获得良好的表现。

但生成模型也有一些缺点。例如,在某些情况下,生成模型可能会揭示源数据,从而带来隐私风险,如果没有进行适当的审计,可能会放大它们所训练数据集中的偏差。

3841ebba77d16cd42f3b7ab2a6b829d8.png

生成式 AI 大势所趋?

有效数据的稀缺性,以及采样偏差,已经成为机器学习发展的关键瓶颈。

近年来,为解决这一问题,生成式 AI(Generative AI)成为了人工智能领域的热议话题之一,被业内给予了足够高的期待。

去年底,Gartner 发布了 2022 年重要战略技术趋势,将生成式 AI 称为是“最引人注目和最强大的人工智能技术之一”。

据 Gartner 预测,预计到 2025 年,生成式 AI 将占所有生成数据的 10%,而目前这一比例还不到 1%。

ec1005d23172af52be417381fa5b1505.png

图|Gartner 2022 年重要战略技术趋势(来源:Gartner 官网)

2020 年,生成式 AI 作为一个新增技术热点,在 Gartner 发布的“Hype Cycle for Artificial Intelligence,2020”中首次被提出。

在最新的“Hype Cycle for Artificial Intelligence,2021”报告中,生成式 AI 作为 2-5 年即可成熟的技术出现。

dfb47e3f271f42667e5874979b8b0c69.png

(来源:Gartner Hype Cycle for Artificial Intelligence, 2021)

生成式 AI 的突破在于,它可以从现有数据(图像、文本等)中学习,并生成全新、相似的原始数据。也就是说,它不仅可以做出判断,还能够进行创造,可以用于自动编程、药物开发、视觉艺术、社交、商业服务等。

但是,生成式 AI 也会被滥用于诈骗、欺诈、政治造谣、伪造身份等,比如经常产生各种负面新闻的 Deepfake。


那么问题来了,如果我们有足够好的生成模型,还需要真实的数据集吗?

原文链接:

https://openreview.net/pdf?id=qhAeZjs7dCL

https://news.mit.edu/2022/synthetic-datasets-ai-image-classification-0315

https://www.gartner.com/en/documents/4004183

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

e9ddf5eac81d19447fe7b3d0d90059dd.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482340.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Django - Cookie和Session

Django - Cookie和Session cookie Django中操作CookieCookie版登陆校验Session Django中Session相关方法Session流程解析Session版登陆验证Django中的Session配置Django - Cookie和Session cookie Cookie的由来 大家都知道HTTP协议是无状态的。 无状态的意思是每次请求都是独立…

一文说清AI智能平台

来源:海豚数据科学实验室有一天,小李的领导说:“我们要做AI平台!”。虽然平台产品也不是新概念了,随着AI技术的成熟,AI平台产品也越来越多,但光凭做平台一句话,小李还是犯了难——大…

2D图像转3D仅需5秒,特斯拉的自动驾驶技术有救了?

来源:科技智谷编译:徐浩75年前,宝丽来相机拍摄出第一张即时照片,是人类第一次以逼真的二维图像快速捕捉三维世界,具有划时代的意义。今天,人工智能的研究人员正在进行相反的工作,力求在几秒钟的…

Django - 中间件

Django - 中间件 一. 什么是中间件 官方: 中间件是一个用来处理Django的请求和相应的框架级别的钩子, 他是一个轻量, 低级别的插件系统, 用于在全局范围内改变Django的输入和输出, 每个中间件都负责做一些特定的功能. 大白话: 中间件是帮助我们在视图函数执行之前和执行之后都可…

回答薛定谔问题: 生命是什么?自由能公式

来源:CreateAMind回答薛定谔的问题:自由能公式麦克斯韦詹姆斯德索莫拉姆斯泰德a,b,∗保罗本杰明巴德科克c,d,e,卡尔约翰弗里斯顿f,1加拿大魁北克蒙特利尔麦吉尔大学哲学系加拿大魁北克蒙特利尔麦吉尔大学精神病学系社会和跨文化精神病学分部c墨尔本大学心理科学学院…

AlphaCode能替代人类程序员吗?网友:被替代也挺好,这样就可以少写代码多开会了...

来源:AI前线作者:Ben Dickson译者:王强策划:冬梅本文属于我们的人工智能研究论文评论系列,这个系列旨在探讨人工智能领域的最新研究成果。DeepMind 是最新的人工智能研究实验室。它推出了一个可以生成软件源代码的深度…

Django - 内置admin

Django内置的Admin是对于model中对应的数据表进行增删改查提供的组件,使用方式有: Django内置的Admin是对于model中对应的数据表进行增删改查提供的组件,使用方式有:复制代码依赖APP:django.contrib.authdjango.contri…

Auth认证模块

Auth认证模块 本文目录 1 Auth模块是什么2 auth模块常用方法3 扩展默认的auth_user表回到目录1 Auth模块是什么 Auth模块是Django自带的用户认证模块: 我们在开发一个网站的时候,无可避免的需要设计实现网站的用户系统。此时我们需要实现包括用户注册、用…

2021年图灵奖,花落高性能计算先驱、田纳西大学教授Jack Dongarra

来源:智源社区“我是一个数学家,对我来说,一切都是线性代数,但世界也正在看到这一点,”Jack Dongarra在采访中表示。“这是我们用来建造其它东西的材料。”他说,机器学习和人工智能中的大多数问题都可以追溯到线性代数…

万字深度好文!视觉-语言(VL)智能:任务、表征学习和大型模型

来源:AI科技评论编译:Jocelyn编辑:陈彩娴本文对视觉-语言(VL)智能按时间顺序进行了全面调研,并将这一领域的发展总结为三个阶段:第一个阶段是2014-2018年,其间,专门的模型…

day60 BBS

BBS项目目的: 带你从头到尾把django再复习一遍 公司开发项目的流程 # 1.需求分析 客户提需求但是并不是完全按照客户需求来 产品经理和架构师开发组组长 去之前架构师和开发组组长 会提前先预想一套方案 有意识的引导客户朝着自己已经想好的解决方案上去提需求 # 2.项目设计 框…

redis笔记_源码_内存分配

文件:zmoalloc.h zmoalloc.c 1.求两个整数的余数 eg: 求_n对sizeof(long)的余数(_n&(sizeof(long)-1)), 性能提升为50%~100% 左右。 转载于:https://www.cnblogs.com/water-bear/p/11598618.html

转发,脑机接口领域又一重要成果!

来源:传感器技术作者:余淼硕士学历,长期从事智能传感控制、信息通信领域研究工作。“ 以脑-机交互(BCI)为核心的神经工程技术,让人类真正可以做到“心想事成”。据首都医科大学官网报道,首都医科…

《2022城市大脑建设标准研究报告》在京正式发布

2022年3月31号,《2022城市大脑建设标准研究报告》在北京正式发布,该报告由中国指挥与控制学会,中国科学院虚拟经济与数据科学研究中心,国家创新与发展战略研究会数字治理研究中心,天府大数据研究院,远望智库…

PHP7 ini 配置大全

来自书本<<PHP7底层源码设计与实现>> 多图警告⚠️ 转载于:https://www.cnblogs.com/wlphp/p/11600566.html

涌现:21世纪科学的统一主题

来源&#xff1a;medium.com作者&#xff1a;David Pines译者&#xff1a;郭瑞东审校&#xff1a;刘志航、梁金编辑&#xff1a;邓一雪原文题目&#xff1a;Emergence: A unifying theme for 21st century science原文链接&#xff1a;https://medium.com/sfi-30-foundations-f…

福布斯:2022年计算机视觉领域五大发展趋势

来源&#xff1a;科技日报记者&#xff1a;刘霞计算机视觉&#xff08;也被称为机器视觉&#xff09;是人工智能技术最令人兴奋的应用之一。该技术旨在“教”会计算机如何“看”世界&#xff0c;它与自然语言处理及语音识别并列为机器学习领域的三大热点方向。计算机视觉技术囊…

“走近”量子模拟

来源&#xff1a;中国军网作者&#xff1a;张媛、张远、达平当下&#xff0c;量子计算在先进材料以及生物化学模拟方面正崭露头角。因为量子力学解释了这些材料的基本物理特性&#xff0c;量子计算非常适合进行模拟。那么&#xff0c;什么是量子模拟&#xff1f;量子模拟有什么…

redis笔记_源码_简单动态字符串SDS

参照:https://zcheng.ren/sourcecodeanalysis/theannotatedredissourcesds/#sds%E5%B0%8F%E7%BB%93 这里用char buf[] 而不用char* buf 的原因是方便内存释放 转载于:https://www.cnblogs.com/water-bear/p/11611804.html

redis笔记_源码_双端链表list

参考:https://redissrc.readthedocs.io/en/latest/datastruct/adlist.html 转载于:https://www.cnblogs.com/water-bear/p/11613515.html