在前几篇文章中,企通查为大家介绍了大数据处理的基本流程。从大数据的一系列处理过程中(抽取、集成、分析、解释),我们可以发现这一整套流程中涵盖了数据存储、处理、应用等多方面的技术。
大数据价值的完美体现需要多种技术的协同。根据涉及领域的不同,大数据的关键技术可以分为大数据采集、大数据预处理、大数据存储及管理、大数据处理、大数据分析及挖掘、大数据展示等几大方面。
本文将对大数据采集进行介绍。
——
大数据采集处于大数据生命周期中第一个环节,是大数据分析至关重要的一个环节,也是大数据分析的入口。
在互联网行业技术快速发展的今天,数据采集广泛应用于互联网及分布式领域(常见的摄像头、麦克风等都可以成为数据采集的工具),此外还集合了信号、传感器、激励器、信号调流、数据采集设备和软件应用等。
大数据采集技术通过RFID射频数据、传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化、非结构化的海量数据。
因此,大数据采集技术也面临着诸多挑战:一方面数据源的种类多,数据的类型繁杂,数据量大,并且产生的速度快;另一方面需要保证数据采集的可靠性和高效性,同时还要避免重复数据。
——
传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。
在大数据体系中,传统数据分为业务数据和行业数据,传统数据体系中没有考虑过的新数据源包括内容数据、线上行为数据和线下行为数据 3 大类。
大数据体系中,数据源与数据类型的关系如下图所示:
和传统的数据采集技术相比,大数据采集技术有2个特点:
1.大数据采集通常采用分布式架构
大数据采集的数据流量大,数据集记录条数多,传统的单机采集方式,在性能和存储空间上都无法满足需求。
2.多种采集技术混合使用
大数据不像普通数据采集那样单一,往往是多种数据源同时采集,而不同的数据源对应的采集技术通常不一样,很难有一种平台或技术能够统一所有的数据源,因此大数据采集时,往往是多种技术混合使用,要求更高。
大数据的采集从数据源上可以分为四类:
Web数据(包括网页、视频、音频、动画、图片等)
日志数据
数据库数据
其它数据(感知设备数据等)
针对不同的数据源,所采用的数据采集的方法和技术也不相同。
1.web数据采集
网络数据采集是指通过网络爬虫或网站公开 API 等方式从网站上获取数据信息的过程。
网络爬虫会从一个或若干初始网页的 URL 开始,获得各个网页上的内容,并且在抓取网页的过程中,不断从当前页面上抽取新的 URL 放入队列,直到满足设置的停止条件为止。
这样可将非结构化数据、半结构化数据从网页中提取出来,并以结构化的方式存储在本地的存储系统中。
2. 系统日志采集
系统日志采集主要是收集公司业务平台日常产生的大量日志数据,供离线和在线的大数据分析系统使用。
高可用性、高可靠性、可扩展性是日志收集系统所具有的基本特征。系统日志采集工具均采用分布式架构,能够满足每秒数百 MB 的日志数据采集和传输需求。
3. 数据库采集
传统企业会使用传统的关系型数据库 MySQL 和 Oracle 等来存储数据。
随着大数据时代的到来,Redis、MongoDB 和 HBase 等 NoSQL 数据库也常用于数据的采集。企业通过在采集端部署大量数据库,并在这些数据库之间进行负载均衡和分片,来完成大数据采集工作。
4. 其他数据(感知设备等数据采集)
感知设备数据采集是指通过传感器、摄像头和其他智能终端自动采集信号、图片或录像来获取数据。
大数据智能感知系统需要实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。其关键技术包括针对大数据源的智能识别、感知、适配、传输、接入等。
数据的采集是挖掘数据“石油”的第一步,当数据量越来越大时,可发掘的有价值的信息也就更多,反应信息也就越加全面。只有更加充分地利用数据化处理平台,才可以保证分析结果的有效性和准确性,以便更加有效地助力企业实现驱动的数据化。
参考文献:
大数据采集技术概述_大数据基础学习-CSDN博客blog.csdn.net艾叔:最全【大数据采集技术】总结bigdatastudy.net