被神话的大数据——从大数据(big data)到深度数据(deep data)思维转变

自从阿法狗战胜人类顶级棋手之后,深度学习、人工智能变得再一次火热起来。有些人认为,深度学习的再一次兴起是源于硬件的提升、数据量的增多以及高效算法的研究。这并不完全精确,有一个基本的误解是更大的数据会产生更好的机器学习结果。然而,更大的数据池/仓库并不一定有助于模型学习到更深刻的见解。正确的答案是,要把重心专注于数据的质量、价值以及多样性,而不仅仅是数据的规模——“深度数据”(deep data)比大数据(big data)好。

       随着研究的进行,人们对大数据的炒作逐渐在减弱。云计算、Hadoop及其变种已经能够解决一些大数据的问题。但是“大数据”是指许多人仍在花费大量资金建设更大的基础设施来处理、保存和管理的庞大数据库。这种盲目追求“大”的做法,在基础设施和人力资源方面产生了巨大的、且本可避免的成本。

       目前,越来越多的声音讨论是否从“大数据”转向为“深度数据”了,我们现在需要更加的明智和思考全面,而不是收集所有可能的数据来实现“大数据”。我们现在需要让一些数据落实到位,并寻求数量和质量的多样性,这将给我们带来许多长期的收益。

被神话的大数据

       要理解从“大”到“深”的这种转变,让我们首先看一下我们对大数据的一些错误观念:

  • 可以并且应该捕获和存储所有数据;
  • 更多数据总是有助于构建更准确的预测模型;
  • 存储更多的数据,其存储成本几乎为零;
  • 更多数据的计算成本几乎为零;

以下是现实:

  • 来自物联网和网络流量的数据仍然超过了我们目前具备的捕获所有数据的能力。有些数据必须在摄取时被丢弃。我们需要变得聪明,这就需要我们根据价值对数据进行分类;
  • 重复一千次的相同数据示例并不会提高预测模型的准确性;
  • 存储更多数据的成本不仅仅是网络服务向用户收取的费用(比如云盘),这也是查找和管理多个数据源的额外复杂性以及员工移动和使用该数据的隐藏代价,这些成本通常高于存储和计算费用。
  • 人工智能算法对计算资源的需求甚至可以快速超越弹性云基础设施。虽然计算资源可以线性增长,但计算需求可以超线性增长,甚至指数级增长。

       相信这些神话的问题在于,我们将以一种在纸上或长期看来都很好的方式构建信息系统,但在即时时间框架内过于繁琐,无法发挥作用。

大数据的四个问题

       以下是在数据方面盲目相信“越多越好”时存在的四个问题:

  • 更多相同的数据是没有作用的。为人工智能构建机器学习模型时,训练示例的多样性至关重要,原因是模型是根据数据来试图确定概念边界。例如,如果模型试图通过使用年龄和职业来定义“退休工人”的概念,那么32岁的注册会计师的重复示例对该模型并没有什么好处,因为它们表示的含义都是没有退休。在65岁的概念边界获得示例并了解退休如何随职业而变化对模型会更有帮助;
  • 嘈杂的数据可能会伤害模型。如果新数据中存在错误或者不精确,那么它只会混淆模型试图学习的两个概念之间的界限。在这种情况下,更多的数据将无济于事,实际上可能会降低现有模型的准确性;
  • 大数据让一切都变慢了。在数TB的数据上构建模型可能比在数GB的数据上构建模型花费一千倍的时间,或者它可能需要一万倍的时间,这都取决于学习算法。数据科学就是快速实验,快速实验,快速更新以获得较为合适的模型;
  • 大数据可实现的模型。任何预测模型的最终目标都是创建一个可以为业务部署的高度准确的模型。有时使用来自数据池深处更加模糊的数据可能会导致更高的准确性,但所使用的数据对于实际部署可能是不可靠的。最好有一个不太准确的模型,它可以快速运行并可供企业使用。

能做得更好的四件事

       以下是我们可以采取的一些措施来对抗大数据的“黑暗面”,并将大数据思维转向深度数据思维:

  • 了解准确性/执行权衡。数据科学家常常认为目标是获得更准确的模型。而是要根据准确性和部署速度,以明确的ROI预期启动项目;
  • 使用随机样本构建每个模型。如果你的数据集足够大,那么你就没有理由一次性全部使用整个数据集。如果数据集具有良好的随机抽样功能,那么我们就可以使用来自大数据集中的小样本构建模型,并进行准确预测。小样本使得模型迭代更新更加快速,然后使用整个数据库构建最终模型。
  • 丢弃一些数据。如果对来自物联网设备和其他来源的数据流感到不知所措,那么就可以聪明地随意丢弃一些数据。这个方法适合于构建模型的早期阶段,如果到后期的话,这样操作会使得后期工作一团糟。
  • 寻找更多的数据源。人工智能最近的许多突破并非来自更大的数据集,而是源于机器学习算法利用到了以前无法获得数据的能力。例如,二十年前,现在普遍存在的大型文本、图像、视频和音频数据集在那个时代并不存在,因此,我们应该不断寻找产生这些新的数据的机会。

变得更好的四件事

       如果我们转换思路,专注于深度数据而不仅仅是大数据,这样将享受到以下这些好处:

  • 一切都会变得更快。使用较小的数据,对数据进行移动、实验、训练和模型评估都会快得多;
  • 需要更少的存储和计算资源。专注于深度数据意味着我们将更加智能地使用更小的磁盘并通过云计算,这样会直接降低基础设施的成本,节省下来的资金就可以聘请更多数据科学家和人工智能专家;
  • 减轻研究人员的压力并变得更加快乐。在有了深度数据思维后,团队将发现自己不太可能只是做一些打杂工作,比如制作数据集或者杀死那些占用所有云资源的错误程序等。同样,数据科学家也会花更多的时间在构建和测试模型上,而不是被数据移动或等待长时间的训练过程,这样也会使其变得更快乐。
  • 可以解决更难的问题。构建一个人工智能模型并不是一个只有像巫师一样的研究人员才能完成的神奇体验。与其说人工智能是魔法,不如说是一种逻辑。这类似于一个艺术老师告诉他班上一半的学生,他们的分数将基于他们制作的艺术作品的数量,另一半的学生将根据他们最好的作品的质量来评分。毫不奇怪,学生创作的艺术品数量会大大增加。令人震惊的是,在产量增多的同时,高品质的产品也会出现——数量有时会产生质量。在我们的例子中,在相同资源约束下尝试的更多模型可能意味着更好的最佳模型。

       大数据和支持它的技术突破极大地促进了许多公司在决策过程中成为数据驱动的动力。随着人工智能的兴起以及处理这些强大资源的能力,现在需要更加精确地根据我们的数据需求建立一种理解深度数据的思维,而不仅仅是大数据。

 


原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/519990.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

spring整合rabbitMQ最新版

文章目录一、简单对象1. 依赖2. 生产者3. 消费者4. 配置文件5. spring版本二、复杂对象2.1. 生产者2.2. 消费者一、简单对象 1. 依赖 <!--spring整合rabbitmq--><dependency><groupId>org.springframework.amqp</groupId><artifactId>spring-ra…

搞定面试算法系列 | 分治算法三步走

戳蓝字“CSDN云计算”关注我们哦&#xff01;作者 | 江子抑转自 | 编程拯救世界主要思想分治算法&#xff0c;即分而治之&#xff1a;把一个复杂问题分成两个或更多的相同或相似子问题&#xff0c;直到最后子问题可以简单地直接求解&#xff0c;最后将子问题的解合并为原问题的…

通过FD耗尽实验谈谈使用HttpClient的正确姿势

一段问题代码实验 在进行网络编程时&#xff0c;正确关闭资源是一件很重要的事。在高并发场景下&#xff0c;未正常关闭的资源数逐渐积累会导致系统资源耗尽&#xff0c;影响系统整体服务能力&#xff0c;但是这件重要的事情往往又容易被忽视。我们进行一个简单的实验&#xf…

与“十“俱进 阿里数据库运维10年演进之路

导语 阿里巴巴集团拥有超大的数据库实例规模&#xff0c;在快速发展的过程中我们在运维管理方面也在不断的面临变化&#xff0c;从物理器到容器、从独占到混布、从本地盘到存储计算分离、从集团内到大促云资源&#xff0c;从开源的MySQL到自研分布式数据库&#xff0c;运维管控…

jmeter 压测 RabbitMQ_单机

文章目录一、MQ压测1. 资料列表2. jmeter软件包3. 插件列表二、远程服务器监控2.1. 监控声明2.2. 监控场景的区别2.3. 软件列表2.4. 插件操作2.5. 软件操作三、jmeter编写MQ脚本3.1.创建线程组3.2. 创建MQ生产者3.3. 创建MQ消费者四、监听器4.1. 聚合报告4.2. 观察树4.3. 监控五…

云+X案例展 | 民生类:纷享销客助力沃得农机构筑智能化、信息化之路

本案例由纷扬科技投递并参与评选&#xff0c;CSDN云计算独家全网首发&#xff1b;更多关于【云X 案例征集】的相关信息&#xff0c;点击了解详情丨挖掘展现更多优秀案例&#xff0c;为不同行业领域带来启迪&#xff0c;进而推动整个“云行业”的健康发展。​​​​“2004年到20…

如何“神还原”数据中心? 阿里联合NTU打造了工业级精度的仿真沙盘!

如何保障数据中心的稳定运行&#xff0c;是多年来一直困扰业界的难题。机房环境如果发生未预期变化&#xff0c;可能造成难以估计的损失。所以我们希望能构建一个“变更沙盘”&#xff0c;在真实变更之前&#xff0c;操作人员可以先在沙盘中进行试变更&#xff0c;若变更效果在…

RabbitMQ 手动签收

下面这基础地方都必须设置&#xff0c;不然无效 // 同一时刻服务器只会发一条消息给消费者channel.basicQos(1); // 消息的标识&#xff0c;false只确认当前一个消息收到&#xff0c;true确认所有consumer获得的消息 channel.basicAck(message.getMessageProperties().getDeli…

把16进制转换为ascii字符c语言,ASCII转16进制C语言

满意答案u2gseftj278推荐于 2016.03.01采纳率&#xff1a;56% 等级&#xff1a;11已帮助&#xff1a;14340人以前引别人的&#xff0c;自己懒得再写了呵呵。原理就是这样的&#xff0c;你可以直接用的//函 数 名&#xff1a;AscToHex()//功能描述&#xff1a;把ASCII转换为1…

四大维度全景揭秘阿里巴巴智能对话开发平台

在阿里巴巴智能服务事业部的X蜂会上&#xff0c;小蜜北京团队的高级算法专家李永彬&#xff08;水德&#xff09;分享了小蜜智能对话开发平台的构建&#xff0c;围绕平台来源、设计理念、核心技术、业务落地情况四大维度讲述了一个较为完整的智能任务型对话开发平台的全景。以下…

2019年技术盘点云数据库篇(二):阿里云携手MongoDB率先上线4.2数据库 云上数据库已是大势所趋...

戳蓝字“CSDN云计算”关注我们哦&#xff01;作者 | 刘丹出品 | CSDN云计算&#xff08;ID&#xff1a;CSDNcloud&#xff09;随着技术的飞速发展&#xff0c;云数据库在云计算的大背景下&#xff0c;作为一种新兴的共享基础架构方法逐渐发展起来&#xff0c;它极大地增强了数据…

Oracle 查看表空间的大小及使用情况sql语句

SELECT a.tablespace_name "表空间名称", total / (1024 * 1024) "表空间大小(M)", free / (1024 * 1024) "表空间剩余大小(M)", (total - free) / (1024 * 1024 ) "表空间使用大小(M)", total / (1024 * 1024 * 1024) "表空…

高可用、弹性动态的金融级移动架构在蚂蚁金服的演进之路

本文基于重岳在 2018 年 Arch Summit 北京站的分享内容进行总结&#xff0c;希望通过本篇文章介绍近些年来支付宝在移动端架构的上演进和思考&#xff0c;期冀能给读者们带来些许帮助。 支付宝作为国民级应用&#xff0c;当前全球用户已经超过 10 亿&#xff0c;提供了超过 200…

Android代码混淆方法,Android 代码混淆零基础入门

内容提要本篇文章主要有三个部分&#xff0c;让读者读完后能自己写规则混淆项目对Android代码怎么开启混淆做一个简单的介绍。对混淆规则做一个简单介绍&#xff1b;在混淆过后Crash日志反推代码工具retrace.bat、可视化反推工具GUI说明。对混淆的一个简单介绍&#xff1a;Andr…

oracle查询当前用户名下所有表

--SONARQUBE为用户名&#xff0c;用户名必须是大写 SELECT * from all_tables where ownerSONARQUBE;--查看当前登录的用户的表: SELECT table_name from user_tables;

JUC包中的分而治之策略-为提高性能而生

一、前言 本次分享我们来共同探讨JUC包中一些有意思的类&#xff0c;包含AtomicLong & LongAdder,ThreadLocalRandom原理。 二、AtomicLong & LongAdder 2.1 AtomicLong 类 AtomicLong是JUC包提供的原子性操作类&#xff0c;其内部通过CAS保证了对计数的原子性更新…

galaxy s8 android pc,手机秒变PC!三星Galaxy S8桌面模式曝光

据外媒报道&#xff0c;三星旗舰手机Galaxy S8/S8 Plus在外观上以及硬件配置上已经没有了悬念。不过一些小的改进或者是新功能还是让人对Galaxy S8充满期待。日前&#xff0c;传闻中的Galaxy S8桌面模式终于被曝光。三星Galaxy S8桌面模式曝光(图片来自kkj)报道称&#xff0c;G…

2020年进军 AI,想年薪 40 万,没这个能力不行

前几天&#xff0c;《百度沸点&#xff1a;2019年度科技热词》来了&#xff01;百度沸点&#xff1a;2019年度科技热词 AI排名第一2019年可以说是AI全面落地和商用的一年&#xff0c;产业智能化成为各个行业重点关注的发展方向&#xff0c;交通、工业、农业、医疗等主流行业无一…

重磅公开!阿里语音识别模型端核心技术,让你“听”见未来

语音识别技术作为人工智能技术中的重要组成部分&#xff0c;成为影响人机交互的核心组件之一&#xff0c;从各种智能家用IoT设备的语音交互能力&#xff0c;到公共服务、智慧政务等场合的应用&#xff0c;语音识别技术正在影响着人们生活的方方面面。 本文将全面介绍阿里云语音…

linux搭建SonarQube代码质量平台_Oracle 最新详细版本

文章目录一、最低配置要求1. JDK版本要求2. 数据库版本要求3. 支持浏览器版本二、软件下载安装2.1. 软件列表总览2.2. jdk11下载2.3. sonarqube下载2.4. sonar-scanner-cli2.5. Oracle 驱动三、安装实战3.1. JDK sonar-scanner3.2. sonarqube3.3. oracle驱动3.4. 启动sonar3.4.…