综合网络解释加上自己的理解给出了大数据的定义。
大数据就是数据规模达到海量级、极快的速度流转、数据类型和来源多种多样、价值密度低而且能够反映事物真实性的数据就是大数据。
大数据的工作内容包括以下几个方面:数据采集
调查显示,未被使 用的信息比例高达99.4%,很大程度都是由于高价值的信息无法获取采集。因此在大数据时代背景下,如何从大数据中采集出有用的信息已经是大数据发展的关键因素之一。数据清洗
将不规整数据转化为规整数据,刚刚采集到的原生数据,格式还无法满足我们对数据处理的基本要求,需要对其进行预处理,转化为我们后面工作所需要的较为规整的数据。数据存储
是将经过清洗、集成和归约的数据存储在空间中,方便后续数据分析使用的一种技术。面对海量数据,传统的数据库存储方式已经无法满足人们对数据存储的诉求,可以采用分布式文件系统进行存储。数据分析统计
利用各种类型的全量数据(不是抽样数据),设计统计方案,得到兼具细致和置信的统计结论。数据建模是数据分析的成果。数据反馈
通过海量历史数据的计算与分析,可以预知未来可能发生的某些故障或风险,比如对不同消费者群体多年消费行为的分析,可以判断得出某些类别或特定商品的销量走势等。