大数据开发(日志离线分析项目)

大数据开发(日志离线分析项目)

  • 一、项目需求
    • 1、使用jquery+echarts的方式调用程序后台提供的rest api接口,获取json数据,然后通过jquery+css的方式进行数据展示。工作流程如下:
    • 2、七大角度
      • 1、用户基本信息分析模块
      • 2、浏览器信息分析模块
      • 3、地域信息分析模块
      • 4、用户浏览深度分析模块
      • 5、外链数据分析模块
      • 6、订单分析模块
      • 7、事件分析模块
  • 二、系统架构
    • 1、数据流程设计
    • 2、如何确定集群规模?
    • 3、测试服务器规划
  • 三、JS SDK
    • 1、概述
    • 2、执行工作流
    • 3、数据参数说明
    • 4、事件分析
      • 4.1 概述
      • 4.2 launch事件
      • 4.3 pageview事件
      • 4.4 chargeRequest事件
      • 4.5 event事件
  • 四、JAVA SDK
    • 1、执行工作流
    • 2、程序后台事件分析
      • 2.1 chargesuccess事件
      • 2.2 chargerrefund事件
  • 五、数据来源设计
    • 1、项目搭建
    • 2、配置tomcat
    • 3、代码分析
      • 3.1 js代码分析
      • 3.2 java代码分析
  • 六、nginx和flume应用
    • 1、添加nginx服务与开机启动
    • 2、Nginx日志格式配置
    • 3、项目中flume的配置
  • 七、ETL
    • 1、解析思路
  • 八、新增用户数据处理
    • 1、数据库和表
    • 2、维度相关类
    • 3、Mapper和Reducer输出Value类
    • 4、添加写入MySQL表相关类
    • 5、Runner开发
    • 6、Mapper开发
    • 7、Reducer开发
  • 九、活跃用户数据处理
    • 1、ActiveUserRunner开发提示
    • 2、Mapper开发提示
    • 3、Reducer开发提示
  • 十、Sqoop
  • 十一、用户浏览深度分析
    • 1、hql编写
    • 2、Hive中创建表
    • 3、hql行转列
    • 4、完善hql
    • 5、编写UDF类
    • 6、Hive创建函数
    • 7、sqoop脚本编写

一、项目需求

1、使用jquery+echarts的方式调用程序后台提供的rest api接口,获取json数据,然后通过jquery+css的方式进行数据展示。工作流程如下:

在这里插入图片描述

2、七大角度

1、用户基本信息分析模块

1、用户分析
分析新增用户、活跃用户以及总用户的相关信息。
2、会员分析
分析新增会员、活跃会员以及总会员的相关信息。
3、会话分析
分析会话个数、会话长度和平均会话长度相关的信息。
4、Hourly分析
分析每天每小时的用户、会话个数以及会话长度的相关信息。

2、浏览器信息分析模块

1、用户分析
2、会员分析
3、会话分析
4、浏览器pv分析
pv:访问页面的数量pageview

3、地域信息分析模块

1、活跃访客地域分析
分析各个不同地域的活跃访客数量
2、跳出率分析
分析各个不同地域的跳出率情况。(没有进行二次浏览行为,直接退出网站)

4、用户浏览深度分析模块

用户在一次会话中访问页面的数量。pv/uv(uv:cookie中的uuid数量)

5、外链数据分析模块

1、外链偏好分析
分析各个外链带来的活跃访客数量
2、外链会话(跳出率)分析

6、订单分析模块

7、事件分析模块

二、系统架构

1、数据流程设计

在这里插入图片描述

2、如何确定集群规模?

1、考虑自己单台服务器的配置
2、其次要考虑的是每日的数据规模:每日活跃用户、用户平均每日数据量
3、副本策略:一般2~3个副本
4、扩容周期:半年不扩容
5、预留空间:一般20%~30%

3、测试服务器规划

在这里插入图片描述

三、JS SDK

1、概述

不采用ip来标识用户的唯一性,通过在cookie中填充一个uuid来标识用户的唯一性。
埋点:在页面(jsp或html)中植入js代码。

2、执行工作流

在这里插入图片描述

3、数据参数说明

在各个不同事件中收集不同的数据发送到nginx服务器。
在这里插入图片描述
在这里插入图片描述

4、事件分析

4.1 概述

用户基本信息:pageview事件+launch事件
浏览器信息分析:在用户基本信息分析的基础上添加浏览器这个维度信息,pageview事件
地域信息:通过nginx服务器来收集用户的ip地址来进行分析,pageview事件
外链数据分析、用户浏览深度分析:在pageview事件中添加访问页面的当前url和前一个页面的url,pageview事件
订单信息分析:chargeRequest
自定义事件分析:需要一个pc端发送一个新的事件数据,定义为event。还需要设置一个launch事件来记录新用户的访问。event事件+launch事件

4.2 launch事件

用户第一次访问网站的时候触发该事件
在这里插入图片描述

4.3 pageview事件

当用户访问页面/刷新页面的时候触发该事件
在这里插入图片描述

4.4 chargeRequest事件

用户下订单的时候触发该事件
在这里插入图片描述

在这里插入图片描述

4.5 event事件

当访客/用户触发业务定义的事件后,前端程序调用该方法。
在这里插入图片描述

在这里插入图片描述

四、JAVA SDK

发送支付成功/退款成功的信息给nginx服务器。

1、执行工作流

在这里插入图片描述

2、程序后台事件分析

发送订单支付成功的信息给nginx服务器。

2.1 chargesuccess事件

支付成功
在这里插入图片描述
在这里插入图片描述

2.2 chargerrefund事件

订单退款
在这里插入图片描述
在这里插入图片描述

五、数据来源设计

埋点的使用,js相关方法以及java的相关方法

1、项目搭建

2、配置tomcat

3、代码分析

3.1 js代码分析

3.2 java代码分析

1、订单支付成功事件
AnalyticsEngineSDK.onChargeSuccess(…)方法
触发订单支付成功事件,发送事件数据到Nginx服务器
param orderId 订单支付id
param memberId 订单支付会员id
如果发送数据成功(加入到发送队列中),那么返回true;否则返回false(参数异常&添加到发送队列失败)。
2、订单退款成功事件
触发订单退款事件,发送退款数据到服务器
param orderId 退款订单id
param memberId 退款会员id
如果发送数据成功,返回true。否则返回false。

六、nginx和flume应用

1、添加nginx服务与开机启动

2、Nginx日志格式配置

3、项目中flume的配置

项目当中如何收集Nginx产生的日志?
监控日志文件/opt/data/access.log,将采集到的日志存放到hdfs文件系统的/log/目录下,并以yyyyMMdd为子目录分别存放每天的数据。

七、ETL

1、解析思路

1、通过^A进行拆分,不足四部分的数据不符合要求,过滤掉。
2、?后面的内容按照 & 进行拆分
3、在按照=进行拆分
4、判断参数en的值如果不是6种事件类型的过滤掉。
5、192.168.20.1 换算成地域
6、1642391346.792 时间
7、浏览器相关信息提取处理

八、新增用户数据处理

1、数据库和表

2、维度相关类

1、维度类图
浏览器维度、时间维度、KPI维度、平台维度
通过以上四个维度的各种组合,计算它的新增用户指标
2、BaseDimension类
3、BrowserDimension类
唯一标识id、名称、版本
4、PlatformDimension类
id、platformName
5、KpiDimension类
id、kpiName
6、DateDimension类
id、year、season、month、week、day、type、calendar
7、StatsDimesion类
8、StatsCommonDimesion类
9、 StatsUserDimesion类
10、KpiType类

3、Mapper和Reducer输出Value类

1、BaseStatsValueWritable类
获取当前value对应的kpi值
2、TimeOutputValue类
Mapper类输出的Value对应类型的类
id、time
3、MapWritableValue类
Reducer输出要写入mysql的表中,那么就存在以下两个问题:
1.把数据写入到哪个表中?比如new_install_user->query-mapping.xml中找namenew_install_user插入sql语句
2.对应表中一行记录的数据内容

4、添加写入MySQL表相关类

5、Runner开发

Job流程:
1、从hbase的eventlog表中读取数据
2、Mapper中对数据列表进行纬度的组合
3、Reducer聚合操作
4、数据放到MySQL对应的表中
hbase表查询:
en,s_time,pl,u_ud,browser,browser_v,kpi
条件 lanuch en=e_l (条件)和 时间范围
注意:kpi 模块 new_install_user,browser_new_install_user
通过List来完成如下操作:
1、scan添加过滤器,startKey stopKey
2、指定en=e_l的查询条件
3、指定要获取的列名MultipleColumnPrefixFilter
4、指定表名

6、Mapper开发

四个纬度:时间、浏览器、平台、模块
组合四个纬度,向输出外键值对信息。
维度组合有多少种?
各个维度的种类相乘得到结果
修改EventLogConstants类,添加两个常量:new_install_user、browser_new_install_user

7、Reducer开发

由于统计的是用户的数量,需要对log进行uuid的过滤,因为同一个人有可能点击了多次。

九、活跃用户数据处理

只要在指定的日期中出现过一次PageView的用户便被称为活跃用户。
查询哪些列?
en,s_time,browser_name,browser_version,platform,uuid
查询的过滤条件?
事件类型:en=e_pv
指定日期:>=yyyy-MM-dd 00:00:0 并且 < yyyy-MM-dd+1
00:00:00

1、ActiveUserRunner开发提示

1、创建日志记录对象
2、声明配置文件对象
3、设置Reducer相关参数、设置OutputFormat类、提交作业
4、处理日期参数
从传入的参数中获取日期,如果日期不合法或没有,则使用当前系统时间的昨天,将日期添加配置文件对象,设置相关参数,加载三个配置文件,配置文件处理

2、Mapper开发提示

声明并实例化输出的key和value对象
声明并实例化Kpi维度对象
声明日期维度对象
声明平台维度集合对象
声明浏览器维度集合对象
从value获取服务器时间
从value获取用户id
从value获取平台
从value获取浏览器名称
从value获取浏览器版本
构建单一维度对象或集合对象 日期、平台、浏览器
构建组合维度对象
循环遍历输出

3、Reducer开发提示

声明并实例化输出的value对象
去重,定义Set集合
清空集合,排除上一组数据的干扰
遍历values,将获取出的uuid添加到Set集合对象中
声明并实例MapWritable对象 mapw
将获取用户的数量添加到mapw中
并将mapw封装到Reduce输出的value对象中
kpi维度处理

十、Sqoop

将关系数据库(oracle、mysql、sqlserver等)数据与hadoop、hive、hbase等数据进行转换的工具。同类产品DataX(阿里顶级数据交换工具)
MR中通过InputFormat和OutputFormat配置MR的输入和输出

十一、用户浏览深度分析

通过hive和hbase的整合,编写hql分析语句,将分析后的结果
放入到hive的结果表中,然后通过sqoop导出到mysql的结果表中。

1、hql编写

2、Hive中创建表

3、hql行转列

4、完善hql

5、编写UDF类

6、Hive创建函数

7、sqoop脚本编写

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/773849.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Python】学习率调整策略详解和示例

学习率调整得当将有助于算法快速收敛和获取全局最优&#xff0c;以获得更好的性能。本文对学习率调度器进行示例介绍。 学习率调整的意义基础示例无学习率调整方法学习率调整方法一多因子调度器余弦调度器 结论 学习率调整的意义 首先&#xff0c;学习率的大小很重要。如果它…

java 面向对象入门

类的创建 右键点击对应的包&#xff0c;点击新建选择java类 填写名称一般是名词&#xff0c;要知道大概是什么的名称&#xff0c;首字母一般大写 下面是创建了一个Goods类&#xff0c;里面的成员变量有&#xff1a;1.编号&#xff08;id&#xff09;&#xff0c;2.名称&#x…

Android 性能优化(六):启动优化的详细流程

书接上文&#xff0c;Android 性能优化&#xff08;一&#xff09;&#xff1a;闪退、卡顿、耗电、APK 从用户体验角度有四个性能优化方向&#xff1a; 追求稳定&#xff0c;防止崩溃追求流畅&#xff0c;防止卡顿追求续航&#xff0c;防止耗损追求精简&#xff0c;防止臃肿 …

【IT之家】IT之家网站的资讯文章资源,实时数据抓取检索软件免费下载NO.65

简介&#xff1a;IT之家是业内领先的IT资讯和数码产品类网站。IT之家快速精选泛科技新闻&#xff0c;分享即时的IT业界动态和紧跟潮流的数码产品资讯&#xff0c;提供给力的PC和手机技术文章、丰富的系统应用美化资源&#xff0c;以及享不尽的智能阅读。 本软件基于C#实现的win…

苹果 WWDC 24 将举行;高通、谷歌、英特尔等联合开发 AI 软件;艺术家谈及使用 Sora 创作视频体验

▶ 苹果WWDC 24 将于当地时间 6 月 10 日召开 3 月 27 日凌晨&#xff0c;苹果官宣将于当地时间 6 月 10 日举行今年的全球开发者发布大会。 苹果全球营销高级副总裁 Greg Joswiak 在社交媒体上表示&#xff1a;「在您的日历标记上 WWDC24 吧。这场活动无疑会令人惊喜&#xf…

数字化转型核心:实现业务与技术深度融合的运维数字化管理之道

写在前面 数字化转型已经成为大势所趋&#xff0c;各行各业正朝着数字化方向转型&#xff0c;利用数字化转型方法论和前沿科学技术实现降本、提质、增效&#xff0c;从而提升竞争力。 数字化转型是一项长期工作&#xff0c;包含的要素非常丰富&#xff0c;如数字化转型顶层设…

Spring:面试八股

文章目录 参考Spring模块CoreContainerAOP 参考 JavaGuide Spring模块 CoreContainer Spring框架的核心模块&#xff0c;主要提供IoC依赖注入功能的支持。内含四个子模块&#xff1a; Core&#xff1a;基本的核心工具类。Beans&#xff1a;提供对bean的创建、配置、管理功能…

同城双活:交易链路的稳定性与可靠性探索

知易行难&#xff0c;双活过程中遇到了非常多的问题&#xff0c;但是回过头看很难完美的表述出来&#xff0c;之所以这么久才行文也是这个原因&#xff0c;总是希望可以尽可能的复现当时的思考、问题细节及解决方案&#xff0c;但是写出来才发现能给出的都是多次打磨、摸索之后…

阿里云安装宝塔后面板打不开

前言 按理来说装个宝塔面板应该很轻松的&#xff0c;我却装了2天&#xff0c;真挺恼火的&#xff0c;网上搜的教程基本上解决不掉我的问题点&#xff0c;问了阿里云和宝塔客服&#xff0c;弄了将近2天&#xff0c;才找出问题出在哪里&#xff0c;在此记录一下问题的处理。 服…

MySQL索引优化二

分页查询优化 很多时候我们的业务系统实现分页功能可能会用如下sql实现 select * from employees limit 10000,10;表示从表employees中取出从10001行开始的10条记录.看似只查询了10条记录,实际这条sql是先读取10010条记录,然后抛弃前10000条记录,然后读到后面10条想要的数据,…

Pillow教程07:调整图片的亮度+对比度+色彩+锐度

---------------Pillow教程集合--------------- Python项目18&#xff1a;使用Pillow模块&#xff0c;随机生成4位数的图片验证码 Python教程93&#xff1a;初识Pillow模块&#xff08;创建Image对象查看属性图片的保存与缩放&#xff09; Pillow教程02&#xff1a;图片的裁…

JVM本地方法

本地方法接口 NAtive Method就是一个java调用非java代码的接口 本地方法栈&#xff08;Native Method Statck&#xff09; Java虚拟机栈用于管理Java方法的调用&#xff0c;而本地方法栈用于管理本地方法的调用。 本地方法栈&#xff0c;也是线程私有的。 允许被实现成固定或…

【机器学习之---数学】统计学基础概念

every blog every motto: You can do more than you think. https://blog.csdn.net/weixin_39190382?typeblog 0. 前言 统计学基础 1. 频率派 频率学派&#xff08;传统学派&#xff09;认为样本信息来自总体&#xff0c;通过对样本信息的研究可以合理地推断和估计总体信息…

Transformer 模型中增加一个 Token 对计算量的影响

Transformer 模型中增加一个 Token 对计算量的影响 Transformer 模型中增加一个 Token 对计算量的影响1. Transformer 模型简介2. Token 对计算量的影响3. 增加一个 Token 的计算量估算4. 应对策略5. 结论 Transformer 模型中增加一个 Token 对计算量的影响 Transformer 模型作…

【无标题】C高级325

练习1&#xff1a;输入一个数&#xff0c;实现倒叙123-》321 练习2&#xff1a;输入一个&#xff0c;判断是否是素数 练习3&#xff1a;输入一个文件名&#xff0c; 判断是否在家目录下存在, 如果是一个目录&#xff0c;则直接输出是目录下的sh文件的个数 如果存在则判断是否是…

ELF 1技术贴|应用层更改引脚复用的方法

在嵌入式系统设计中&#xff0c;引脚复用功能通常是通过设备树(Device Tree)预先配置设定的。出厂的设备树中UART2_TX_DATA和UART2_RX_DATA两个引脚被复用成了UART2功能&#xff0c;如果想要在不更换系统镜像的情况下&#xff0c;将这两个引脚的功能转换为GPIO&#xff0c;并作…

深入探讨iOS开发:从创建第一个iOS程序到纯代码实现全面解析

iOS开发作为移动应用开发的重要领域之一&#xff0c;对于开发人员具有重要意义。本文将深入探讨iOS开发的各个方面&#xff0c;从创建第一个iOS程序到纯代码实现iOS开发&#xff0c;带领读者全面了解iOS应用程序的开发流程和技术要点。 &#x1f4f1; 第一个iOS程序 在创建第…

基于springboot+vue+Mysql的超市进销存系统

开发语言&#xff1a;Java框架&#xff1a;springbootJDK版本&#xff1a;JDK1.8服务器&#xff1a;tomcat7数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09;数据库工具&#xff1a;Navicat11开发软件&#xff1a;eclipse/myeclipse/ideaMaven包&#xff1a;…

工地污水处理一体化成套设备如何选型

工地污水处理一体化成套设备的选型是确保工地污水处理效果的关键。在选择合适的设备前&#xff0c;我们需要考虑几个重要因素。 首先&#xff0c;我们需要评估工地的实际污水处理需求。包括污水产生量、水质特征、处理要求等。通过了解工地的情况&#xff0c;我们能够确定适合处…

《探索移动开发的未来之路》

移动开发作为当今科技领域中最为炙手可热的领域之一&#xff0c;正以惊人的速度不断迭代和发展。从技术进展到应用案例&#xff0c;再到面临的挑战与机遇以及未来的趋势&#xff0c;移动开发都呈现出了令人瞩目的发展前景。本文将围绕移动开发的技术进展、行业应用案例、面临的…