什么是大数据,怎么理解和应对大数据时代
在大数据与深度学习中蝶化的人工智能。当代人工智能离不开大数据和深度学习算法。我们先来了解什么是大数据,大数据的本质是什么,在大数据时代我们应该如何应对?
当我们谈论数据的时候我们在谈什么?在大部分人的日常印象中,数据代表的可能是每月水电煤账单上的数字,股票k线图上的红绿指数,还有可能是电脑文件里那一堆看不懂的源代码。
人工智能眼中的数据远比这些广泛。数据的存在形式随着人类文明的发展不断改变,从最初的声音,文字,图画,数字,到电子时代的每一张图片,每一段语音,每一个视频,再到如今互联网时代人类每一次的鼠标点击,用手机时每一次的手指滑动,乃至每一下心跳和呼吸,甚至经济生产中的一切人机动作,轨迹,都已融入数据流。今天的人类已经能够将各种或大或小的事物转化为数据记录,变成我们生活的一部分。数据已经浸染我们生活的每一个细节,就如生物学家所说人体组织的一半是由微生物组成,在数字时代,我们生活的一半已然是数据。在日常生活中,数据的概念对于我们即亲近又陌生。亲近它是因为我们从小就会接触加减乘除这些最基本的数据和算法。步入社会后也在与各种文件报表账单打交道。与此同时,当面对高科技产品中各种关于内存,分辨率等时髦又复杂的数据是,我们又觉得不了解它们甚至没意识到它们的存在。随着大数据,机器算法和人工智能的理念相继到来,这种陌生感会越发加深。
那么数据生活距离我们遥远吗?正相反,数据与我们日常生活的联系从未如此紧密过,从没有像今天如此活跃,具体的记录着人类与世界。从最初的计算机,摄像头到家用计算机,智能手机,再到大数据和人工智能,我们不断升级采集和利用数据的方式。而现在,从一辆车的每日碳排放量统计到全球气温的检测,从预测个人在网上喜好分析到总统选举时投票趋势的预测,我们都可以做到。数据将人与人,人与世界连接起来,构成一张繁密的网络,每个人都在影响世界,又在被他人影响着。传统的统计方法已经无法处理这种相互影响的数据,这么办?答案是让机器自己来处理数据,从数据中习得知识。这便是当代人工智能的本质。与传统的数据记录定义不同,这种数据是有“生命”的。它更像是我们身体的一种自然延伸:聆听我们的声音,拓宽我们的视野,加深我们的记忆,甚至组成一个以数据形式存在的“我”。
自工业革命以来,数据经历过一次又一次的爆发,何以近年来才出现大数据的概念?什么是大数据?
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。从概念中可以得知大数据技术的关键 不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。从技术上看,大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。大数据必须具有几大特征:一,大数据的“大”。与传统数据的储存方式相比是几何量级的差距。
二,多维度。表示大数据可以对一个事物进行多方位的描述,从而更准确。
三,处理非结构数据的能力。未来10年新生数据总量的90%为非结构化数据。大数据通过图像识别,语音识别,自然语言分析等技术计算,分析大量非结构化数据,大大提升数据维度。
四,大数据是生生不息的“流”,具有时间性。一是因为数据量巨大,无法全部储存。另一方面是大数据和人类生生不息的行动相关,瞬息万变。
五,最重要的是,大数据的大表现为无尽的重复。量变促成质变,在机器智能领域,数据量的大小和处理速度的快慢可以直接决定智力水平的高低。