大数据从哪里来?| 技术头条

戳蓝字“CSDN云计算”关注我们哦!

640?wx_fmt=jpeg


作者:Feng

来源:哈尔的数据城堡


现代商业市场是一个数据驱动的环境,可以说不论技术怎么更新换代,数据都有着不可替代的地位,而且抛开数据谈大数据服务就是瞎扯,没有数据作支撑的大数据平台就是一个空壳。无论是公司内部的数据还是外部的数据都可以构成我们大数据平台的数据来源,大数据平台数据的来源主要来自数据库、日志、前端埋点、爬虫。

01 从数据库导入


在大数据技术风靡起来前,关系型数据库(RDMS)是主要的数据分析与处理的途径。发展至今数据库技术已经相当完善,当大数据出现的时候,行业就在考虑能否把数据库数据处理的方法应用到大数据中,于是 Hive、Spark SQL 等大数据 SQL 产品就这样诞生。


虽然出现 Hive 大数据产品,但是在生产过程中业务数据依旧使用 RDMS 进行存储,这是因为产品需要实时响应用户的操作,在毫秒级完成读写操作,而大数据产品不是应对这种情况出现的。到这里你可能就有一个疑问,如何把业务的数据库同步到大数据平台中?一般来说业务数据我们使用实时和离线采集数据来将数据抽取到数据仓库中。然后再进行后续数据处理和分析,一些常见的数据库导入工具有 Sqoop、Datax 和 Canal 等。


640?wx_fmt=jpeg


Sqoop 是 Apache 旗下一款 Hadoop 和关系型数据库之间传送离线数据的工具。实现关系型数据库(MySQL 、Postgres 等)同 Hadoop 集群的 Hdfs、Hbase、Hive 进行数据同步, 是连接传统关系型数据库和 Hadoop 的桥梁。atax 与 Sqoop 类似也是进行离线数据传输,支持阿里数据库系列数据同步。

640?wx_fmt=jpegCanal 则是通过读取 MySql的 BinLog 日志 实时传输数据到大数据平台,实现数据的实时介入。


如果你希望了解更多,可以阅读上篇文章《浅谈数据同步之道》


02 日志导入


日志系统将我们系统运行的每一个状况信息都使用文字或者日志的方式记录下来,这些信息我们可以理解为业务或是设备在虚拟世界的行为的痕迹,通过日志对业务关键指标以及设备运行状态等信息进行分析。


640?wx_fmt=png


Apache Flume 是大数据日志收集常用的工具。从图中可以看出 Flume 运行的核心是 Agent,以 Agent 为最小的独立运行单位。Agent 主要由三个组件:Source,Channel、Sink。


Source: 收集数据,封装数据为事件(Event)后发送到 Channel,数据来源可以是企业服务器、文件系统、云、数据存储库等。


Channel: 通常,读取速度比写入速度快。因此,我们需要一些缓冲区来匹配读写速度差异。基本上,Channel 提供一个消息队列的功能,用于存储 Source 发送的事件,对事件进行消息排序,发送到 Sink。


Sink: 从 Channel 收集数据,将数据输送大数据存储设备,比如 HDFS、Hive、Hbase 等,Sink 也可以作为新的 Source 输入源,两个Agent 进行级联,根据需求开发各种处理结构。


640?wx_fmt=png


03 前端埋点


为什么需要埋点?现在的互联网公司越来越关注转化、新增、留存,而不是简单的统计 PV、UV。这些分析数据来源通过埋点获取,前端埋点分为三种:手工埋点、可视化埋点、自动化埋点。


手工埋点:

前端需要返回数据的位置调用写好的埋点 SDK 的函数,按照规范传入参数通过 Http 方式传入后代服务器中。这种方式可以下钻并精准采集数据,但工程量巨大。


自动化埋点:

也叫无埋点,即是无需埋点,在全部位置都设置埋点,对用户所有操作进行采集,这种方式通过统一的 SDK 返回数据,再选择需要的数据进行分析,这种方式加大服务器的压力,采集许多不需要的数据,浪费资源。在实践中,可以采用对部分用户或者部分简单操作页面进行全埋点采集。


可视化埋点:

是介于手工埋点和自动化埋点之间方式,通过可视化交互设置埋点,可以理解为人为干预的自动化埋点形式。


那如何选择埋点方式?对于一个按钮,如果采用可视化埋点或者自动化埋点时,可以轻易采集用户何时点击按钮,对于需要运行获取获得的数据是无法采集,比如订单的商品详细信息等,对这种情况应该采用手动埋点处理采集。对此,埋点问题不应该通过单一的技术方案来解决,在不同场景下我们需要选择不同的埋点方案。


04 爬虫


时至至今, 爬虫的数据成为公司重要战略资源,通过获取同行的数据跟自己的数据进行支撑对比,管理者可以更好的做出决策。而且越难爬虫获取竞争对手的数据,对于公司来说是越有价值。


小结


数据采集本身不是目的,只有采集到的数据是可用、能用,且能服务于最终应用分析的数据采集才是根本。数据采集的准确性决定了这个数据分析报告是不是有使用价值。只有当数据采集具有科学性、客观、严密的逻辑性时,建立在这样的数据分析基础之上的的出来的结论才具有现实的价值和意义。


640?wx_fmt=png


重磅推荐 ↓ ↓ ↓

640?wx_fmt=jpeg


640?wx_fmt=jpeg


福利

扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!

640?wx_fmt=jpeg


推荐阅读:

  • 边缘计算将吞掉云计算!

  • ARM 发布新一代 CPU 和 GPU,实现 20% 性能提升!

  • 前端开发 20 年变迁史

  • 北漂杭漂的程序员,是如何买到第一套房子?

  • “爱装X”开源组织:“教科书级”AI知识树究竟长什么样?

  • 500行Python代码打造刷脸考勤系统

  • 权游播完了, 你在骂烂尾, 有人却悄悄解锁了新操作……


640?wx_fmt=png真香,朕在看了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/523437.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java算法判断链表有没有闭环_前端算法系列之二:数据结构链表、双向链表、闭环链表、有序链表...

前言上一次我们讲到了数据结构:栈和队列,并对他们的运用做了一些介绍和案例实践;我们也讲到了怎么简单的实现一个四则运算、怎么去判断标签是否闭合完全等等,anyway,今天接着和大家介绍一些数据结构:链表链…

苹果宣布加入CNCF;华为要求美国运营商支付专利费;微软删除最大的公开人脸识别数据集...

戳蓝字“CSDN云计算”关注我们哦!嗨,大家好,重磅君带来的【云重磅】特别栏目,如期而至,每周五第一时间为大家带来重磅新闻。把握技术风向标,了解行业应用与实践,就交给我重磅君吧!重…

企业实战_14_MyCat跨分片查询_全局表

接上一篇:企业实战_13_MyCat清除冗余数据 https://gblfy.blog.csdn.net/article/details/100057317 文章目录一、跨分片查询验证1. 登录mycat2. 使用逻辑数据库1.3. 执行跨分片查询1.4. 异常信息,问题定位1.5. 表分布1.6. 跨分片查询的解决方式1.7. 场景…

java创建四叉树_Java实现 LeetCode 427 建立四叉树

427. 建立四叉树我们想要使用一棵四叉树来储存一个 N x N 的布尔值网络。网络中每一格的值只会是真或假。树的根结点代表整个网络。对于每个结点, 它将被分等成四个孩子结点直到这个区域内的值都是相同的.每个结点还有另外两个布尔变量: isLeaf 和 val。isLeaf 当这个节点是一个…

漫画:什么是二分查找?

戳蓝字“CSDN云计算”关注我们哦!作者 | 蠢萌的小灰来源 | 程序员小灰————— 第二天 —————什么意思呢?我们来举两个栗子:给定一个有序数组 2,5,7,9,12,14,20&…

mysql和mysqldump出现command not found 问题解决

mysql和mysqldump出现command not found 问题解决 一、给mysql配置环境变量 #找到mysql安装路径 cd /app/mysql-5.7.25 #vim /etc/profile export MYSQL_HOME/app/mysql-5.7.25 :${MYSQL_HOME}/bin二、建立软连接 1、查找mysql安装路径 find / -name mysql 通常mysql安装路径…

如何给老婆解释什么是微服务?(文末有福利)

戳蓝字“CSDN云计算”关注我们哦!程序员有了老婆之后就是累,上次好不容易给她解释了什么是Restful,这不,麻烦又来了…一个周日的清晨,阳光洒在我的脸上,慢慢把我唤醒。我翻过身,感觉好像少了些什…

oracle19c连接MySQL_oracle19c的安装和使用navicat连接oracle数据库

一,数据的安装Oracle官方下载链接:https://www.oracle.com/downloads/#category-database首先去oracle官网下载,数据库里面包含了客户端,所以不需要再下载客户端了注意:有的人不下载数据库,只下载客户端为了…

Mycat_MySql更新数据库失败 --read-only

接上一篇:企业实战_20_Mycat-Web之UI监控 https://blog.csdn.net/weixin_40816738/article/details/100100053 #登录数据库 mysql -uroot -p #使用指定数据库 use 数据库名 #查看数据库处于什么状态下 show variables like read-only; #关闭read-only属性状态 set g…

Linux 运维必备的 13 款实用工具,拿好了

戳蓝字“CSDN云计算”关注我们哦!来源 | 高效运维本文介绍几款 Linux 运维比较实用的工具,希望对 Linux 运维人员有所帮助。1. 查看进程占用带宽情况 - NethogsNethogs 是一个终端下的网络流量监控工具可以直观的显示每个进程占用的带宽。下载&#xff1…

企业实战_12_MyCat水平扩展_分库分表

接上一篇:企业实战_11_MyCat垂直拆分相关配置 https://gblfy.blog.csdn.net/article/details/100055838 文章目录一、概念理论理解1. 垂直拆分理解2. 水平扩展理解3. 水平扩展案例4. 水平扩展场景5. 水平拆分原则6. 水平扩展架构图二、关键问题解决方案2.1. 分片后如…

面试阿里,我还是挂在了第四轮……

戳蓝字“CSDN云计算”关注我们哦!作者 | 倪升武责编 | 郭 芮可能每个技术人都有个阿里梦,我也不例外。最近准备跳槽,前一阵子在准备各种面试,也面了几个大厂,包括阿里。是的,最后我挂在了第四轮。这篇文章…

Mycat+Mysql 插入数据报错 i[Err] 1064 - partition table, insert must provide ColumnList

逻辑库结构和物理库表结构如下(逻辑库结构物理库表结构): CREATE TABLE order_key (id int(11) NOT NULL AUTO_INCREMENT COMMENT 主键,goods_name varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT 商品名称,place varchar(2…

微服务精华问答 | 如何理解中台战略和微服务

戳蓝字“CSDN云计算”关注我们哦!微服务(Microservice Architecture)是近几年流行的一种架构思想,关于它的概念很难一言以蔽之。今天,就让我们来看看关于微服务更加有深度的问题吧。1Q:什么是微服务A:1)一组小的服务&a…

php 对象转换成数组,PHP把对象转换为数组的问题

原始对象object(Qiniu\Http\Error)#24 (2) {["url":"Qiniu\Http\Error":private]>string(25) "http://rs.qbox.me/buckets"["response":"Qiniu\Http\Error":private]>object(Qiniu\Http\Response)#25 (6) {["sta…

华为内测基于Android 10.0的EMUI 10系统;2019年Q1真无线耳机市场份额,苹果占半壁江山……...

关注并标星星CSDN云计算极客头条:速递、最新、绝对有料。这里有企业新动、这里有业界要闻,打起十二分精神,紧跟fashion你可以的!每周三次,打卡即read更快、更全了解泛云圈精彩newsgo go go 苹果获得悬停手势专利 可隔空…

企业实战_17_MyCat水平扩展_跨分片查询_ER分片

接上一篇:企业实战_16_MyCat全局自增ID https://blog.csdn.net/weixin_40816738/article/details/100064315 案例比较: 在垂直拆分场景中,针对字段个数少的类型为字典类型的表,我们可以使用全局表的方式解决。 在水平扩展场景中&a…

bmob php支付,支付服务 - 支付服务RESTful 开发文档 - 《Bmob 文档中心》 - 书栈网 · BookStack...

注意:目前支付宝无法使用,请用户暂时不要接入,等待官方的恢复公告!打款需知1.打款前请先在控制台填写以下信息2.每月的1、2、16、17号为申请打款时间,15号、月尾日为打款时间,确保用户有半个月的追诉期。Bm…

企业实战_22_MyCatSQL拦截

接上一篇:企业实战_21_MyCat_keepalived 安装配置验证 https://gblfy.blog.csdn.net/article/details/100073474 Mycat SQL拦截应用场景,可以指定监控的sql类型 文章目录1. 在server.xml文件中添加sql拦截属性标签2. 测试验证3. 查看sql拦截监控日志1. 在…

MongoDB凭什么跻身数据库排行前五?

戳蓝字“CSDN云计算”关注我们哦!作者 | 孙浩峰DB-Engines 数据库流行度排行榜发布了5 月份的数据,前六名的排名“千年不变”,分别是:Oracle、MySQL、Microsoft SQL Server、PostgreSQL、MongoDB 和IBM Db2。而其中,Mo…