Web日志/招聘网站/电商大数据项目样例【实时/离线】

Web服务器日志分析项目

业务分析

业务背景

​ 某大型电商公司,产生原始数据日志某小时达4千五万条,一天日志量月4亿两千万条

主机规划

在这里插入图片描述

(可略)日志格式:

2017-06-1900:26:36101.200.190.54 GET /sys/ashx/ConfigHandler.ashx action=js
8008 - 60.23.128.118 Mazilla/5.0+ (Windows+NT+6.1;+WOW64;+rv:53.0)+Gecko/20100101+
Firefox/53.0 http://某网址/welcome.aspx 200

业务需求

  • 企业高层期望通过日志进行流量来源分析、网站访客特性等信息,从而下沉访客为会员和客户。
  • 期望通过日志网页访问,来分析出受欢迎和不受欢迎的功能模块、公司运营情况、关注细分功能访问量的统计和报表。
  • 掌握网站缺陷情况,以便进行优化分析。

用户需求

运营、运维、产品部门提出以下具体需求:

  • 运营部门想知道最活跃的用户有哪些
  • 运维部门想知道经常被访问但无法响应的页面有哪些
  • 产品部门想知道最常被访问的页面有哪些,以便进一步加强

功能需求

  • 统计客户端访问次数最多的前10个IP地址,按访问次数排序,使用EChats柱状图可视化。
  • 分析客户端访问页面不正常的页面(返回状态码不为200),同(上)一的形式展示。
  • 统计客户端访问次数最多的前10个访问路径,按访问次数排序,使用EChats柱状图可视化。

技术方案设计

技术特性

  • 数据量大
  • 不需要实时分析
  • 需要简单报表 (考虑Hive)

技术选型

大数据离线分析的行业最佳实践将架构由下向上分为5层,此处不需要机器学习层:

  • 数据采集层
  • 数据存储层
  • 数据分析层
  • 机器学习层
  • 数据展示层

数据采集层

这里选用Flume:Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据 -> 又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中。(在初步使用过程中,我们经常监听一个socket端口或者是一个目录的形式去采集元数据)。

这里我们监听目录的形式,去将数据文件采集到HDFS上供给作业处理。

配置Flume对应的.conf文件进行采集和下沉

数据存储层

使用Hadoop的文件系统HDFS进行存储,是最广泛和廉价的大数据分析平台存储方式。

使用基于hadoop的作业进行处理(文中是MapReduce)

数据分析层

此层文中规划的比较笼统,如MapReduce、Spark、Hive等(主离线),如果是实时需求我们一般采用Flink。文中采用的具体技术栈是HIVE,因为SQL语法减少了代码量。(同时需求较为简单,避免了引入Spark增加复杂度【技术没有最好的,只有符合场景下最合适的】)。

在Hive中引入hdfs中的表,进行分析处理,且输出:

开启客户端Hive,然后在Hive中创建数据库t1,在t1数据库中创建内部表a1,列之间用空格分隔,将数据文件/out/part*导入该表。然后将业务逻辑SQL处理结果输出到结果目录,针对不同的三个业务需求,进行不同的SQL处理和编写,此处略。

hive> create database t1;
hive> use t1;
hive> create table a1(... ...) row format delimited fields terminated by " ";
hive> load data inpath 'hdfs://localhost:9000/out/part*' into table a1;
hive> select * from a1 limit 10;...//把分析数据以覆盖的方式插入该目录
hive> insert overwrite directory 'hdfs://localhost:9000/user/hive/warehouse/a1' select n9,count(*) as num from a1 group by n9;

数据展示层

此层略述 , 主是SpringBoot一套的搭配Echatrs的可视化展示。具体是原生还是VUE均可。

Hadoop文件数据由sqoop管道传输到关系型数据库中。

利用管道工具sqoop将hdfs文件迁移到关系型数据库

sqoop export --connect jdbc:mysql://localhost:3306/sqoop --username hive --password hive --table a1 --export-dir /user/hive/warehouse/a1 --input-fields-terminated-by '\001' --num-mappers 1

项目技术栈流程图

在这里插入图片描述

招聘网站数据分析项目

相比于直接生成的数据文件,这里的原始数据通过Python爬虫进行爬取,后续步骤类似(比如技术特性一致:数据量大,非实时等),具体业务需求不一致,原始数据格式不一致(此处非日志格式,而是JSON)。即数据采集层使用Python的request模块进行采集。

项目技术栈流程图

在这里插入图片描述

电商网站实时数据分析项目

业务分析

电商网站的数据非常多,有用户基本数据(个人信息、账户信息等)、访问数据(浏览、点击、收藏、购买等)、消费数据(支付、转账等)等。借助这些信息我们取其中两个简单的业务需求。

业务需求

  • 企业高层期望能够随时查看当天的累计销售总额;
  • 部门经理期望能看到某种类型商品(如家电、食品)下的销售总额,观察日内的销售情况的变化;

功能需求

  • 统计当天的累计销售金额;
  • 统计某种类型的商品当天每个时间段内的销售金额;

这里,技术特性就多了个实时性,文中采用spark进行微批处理,近实时性。

技术选型

大数据实时计算的行业最佳实践架构由下往上分为5层:

  • 数据采集层
  • 数据缓存层
  • 数据计算层
  • 数据存储层
  • 数据展示层

这里数据采集层依旧是使用Flume进行采集原始文件数据【数据采集层】,但是采集之后下沉到缓存层不再是hdfs文件而是消息队列Kafka。【数据缓存层】。后经由Spark程序消费处理【数据计算层】后存储到Redis中【数据存储层】,再通过Spring程序进行可视化展示【数据展示层】。

核心代码

这里的核心代码是Spark的处理,如何把数据归纳到对应时间段进行累加统计,文中采用的是最简单的直接根据解析出的JSON数据中的time字段进行Redis中对应的key进行累加操作。【采用的是Redis的incrBy累加操作,此处文中未作说明,并发情况下可能封装了redis的事务watch或者CAS乐观锁?】(并未使用开窗,这里的需求和实现是伪实时的)

项目技术栈流程图

在这里插入图片描述

金融大数据分析项目

业务需求

  • 银行高层希望了解银行有哪些业务办理的方式?各自占多少份额?这样可以优化现有的资源配置,更好地服务客户
  • 银行高层希望了解各个城市的业务量分别是多少,有利于开展业务活动
  • 银行高层想要知道今年依赖哥哥月份的业务量及变化趋势,并预测今年的业务办理总量
  • 银行高层希望能给基金用户推荐合适的基金(真歹毒啊!)

功能需求

  1. 统计分析银行各种业务办理方式的占比,采用Echarts饼状图;
  2. 统计分析银行哥哥城市的业务量,并采用ECharts柱状图可视化;
  3. 统计分析银行截止到目前,每个月的业务量,并采用ECharts折线图可视化;
  4. 通过历史用户购买基金的数据,使用协同过滤算法,给当前用户推荐合适的基金;

其中(1)和(2)属于离线数据分析,(3)属于实时数据分析,(4)属于数据挖掘。

技术特性

  • 数据量较大
  • 业务较为复杂
  • 离线和实时需求交叉

技术框架

将其分为四层:数据采集层、数据处理层、数据存储层、数据展示层。

数据采集层

文中离线处理方向:数据采集使用SparkSQL从MySQL中采集数据;实时方向采用Flume和Kafka从服务器进行采集数据。

数据处理层

离线方向采用Spark Core进行数据处理;

实时方向采用Flink处理;

数据存储层

离线采用MySql进行存储;实时采用Redis进行存储;

数据展示层

采用SpringBoot和VUE.js进行处理。

项目技术栈流程图

离线方向将数据用SparkSQL从MySQL中抽取后处理存放在Hive分区表中,再用Spark进行处理和清洗统计分析保存在MySQL中。实时则是直接处理Flume采集到Kafka中的数据下沉到Redis和MySQL中。

【Flink业务处理都是简单的keyBy(0)和sum(1)】未进行开窗类的。

在这里插入图片描述

使用Spark ML进行数据挖掘:引入maven中spark-mllib_2.11调用对应的API进行结果训练获取:略。

参考

《“1+x”大数据应用开发(Java)职业技能等级证书系列教材》 卢正平 曹小平 郑子伟 编著

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/791835.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

预处理指令详解

前言 上一节我们了解了文件操作的相关内容,本节我们来了解一下预处理指令,那么废话不多说,我们正式开始今天的学习 预定义符号 在C语言中,设置了一些预定义的符号,可以供我们直接使用,预定义符号是在程序…

一场人生的风险控制,商业社会识人指南

一、资料前言 本套社会识人资料,大小679.94M,共有37个文件。 二、资料目录 识人的终极目的:一整场人生的风险控制.pdf 信任的搭建:更多的时间与维度.pdf 没有搞不定的人!角色人格与全面人格.pdf 政治不正确的正确…

程序员为什么不能一次性写好,需要一直改Bug?

程序员为什么不能一次性写好,需要一直改Bug? 我有一问: 你为什么不上清华呢,高考答满分不就行了? 程序员在软件开发过程中可能会遇到需要不断修改Bug的情况,这主要是由以下几个原因造成的: 复杂…

Linux简单介绍

Linux简单介绍 编译器VMware虚拟机Ubuntu——LinuxOS为什么使用LinuxOS? 目录结构Windows目录结构Linux操作系统home是不是家目录? Linux常用命令终端命令行提示符与权限切换命令tab 作用:自动补全上下箭头pwd命令ls命令mkdir命令touch命令rm…

智能革命:ChatGPT3.5与GPT4.0的融合,携手DALL·E 3和Midjourney开启艺术新纪元

迷图网(kk.zlrxjh.top)是一个融合了顶尖人工智能技术的多功能助手,集成了ChatGPT3.5、GPT4.0、DALLE 3和Midjourney等多种智能系统,为用户提供了丰富的体验。以下是对这些技术的概述: ChatGPT3.5是由OpenAI开发的一个自然语言处理模型&#x…

第17章 反射机制

一 反射(Reflection)的概念 1.1 反射的出现背景 Java程序中,所有的对象都有两种类型:编译时类型和运行时类型,而很多时候对象的编译时类型和运行时类型不一致。 Object obj new String(“hello”); obj.getClass() 例如:某些变…

C++多线程:单例模式与共享数据安全(七)

1、单例设计模式 单例设计模式,使用的频率比较高,整个项目中某个特殊的类对象只能创建一个 并且该类只对外暴露一个public方法用来获得这个对象。 单例设计模式又分懒汉式和饿汉式,同时对于懒汉式在多线程并发的情况下存在线程安全问题 饿汉…

深入理解计算机系统 家庭作业 2.75

/* 书中的公式是w位的公式(mod 就是为了截断成w位),我们现在做的是2w位中的前w位 注意书上这句话:由于模运算符,所有带有权重和的项都丢掉 对应到本题 该项除以后还是超过了2w位所以被丢弃了,因为题目说了只有2w位 这个式子除以就是我们想要的最终结果 函数signed_high_p…

前端学习<四>JavaScript基础——03-常量和变量

常量(字面量):数字和字符串 常量也称之为“字面量”,是固定值,不可改变。看见什么,它就是什么。 常量有下面这几种: 数字常量(数值常量) 字符串常量 布尔常量 自定义…

Vol.34 Good Men Project:一个博客网站,每月90万访问量,通过付费订阅和广告变现

今天给大家分享的案例网站是:Good Men Project,这是一个专门针对男性成长的博客网站,内容包括人际关系、家庭、职业发展等话题。 它的网址是:The Good Men Project - The Conversation No One Else Is Having 流量情况 我们先看…

高分卫星助力台湾省花莲县地震应急救援

4月3日7时58分,在台湾省花莲县海域(北纬23.81度,东经121.74度)发生7.3级地震,震源深度12公里。接中国地震局地震预测研究所应急需求,国家航天局对地观测与数据中心(以下简称“中心”&#xff09…

C#仿OutLook的特色窗体设计

目录 1. 资源图片准备 2. 设计流程: (1)用MenuStrip控件设计菜单栏 (2)用ToolStrip控件设计工具栏 (3)用StatusStrip控件设计状态栏 (4)ImageList组件装载树节点图…

SQLyog连接数据库8.0版本解析错误问题解决方案

问题描述: 解决方案: alter userrootlocalhostidentified with mysql_native_password by 密码; 再次连接就可以了。

实现顺序表的增删查改

现在让我们探索数据结构这个美妙的世界吧! 概念介绍 线性表是具有相同特性的数据元素的有限序列。线性表是一种在实际运用中广泛运用的线性结构,如线性表,栈,队列,字符串等。 顺序表的本质是数组,实现了…

js的事件冒泡、捕获、委托

事件不仅存在js中,也存在在其他语言中,js事件背后的主要思想是能够在特定事件发生时运行代码。 先普及一个概念,什么是事件处理程序? 事件处理程序就像一个特殊的通用遥控器,可以执行某些操作,例如更改电…

java自动化-03-04java基础之数据类型举例

1、需要特殊注意的数据类型举例 1)定义float类型,赋值时需要再小数后面带f float num11.2f; System.out.println(num1);2)定义double类型,赋值时直接输入小数就可以 3)另外需要注意,float类型的精度问题…

鸿蒙开发就业前景到底怎么样?

随着科技的不断进步,鸿蒙操作系统的推出为开发者们带来了新的机遇和挑战。鸿蒙,作为华为自主研发的操作系统,旨在为消费者提供更为流畅、安全的智能设备体验。那么,鸿蒙开发就业前景如何呢? 一、鸿蒙操作系统的优势 …

探索--------------redis缓存三大问题及解决方案

目录 一、redis的三大缓存问题 1、缓存穿透 1.1 问题描述 1.2缓存穿透发生的条件 1.3缓存穿透发生的原因 1.4解决方案 2、缓存雪崩 2.1问题描述 2.2解决缓存雪崩问题的方法有: 3、缓存击穿 (热点数据集中失效) 3.1问题描述 3.2缓…

SpringBoot快速入门笔记(3)

文章目录 一、MybatisPlus1、ORM2、添加依赖3、全局配置4、Navicat5、UserController6、CRUD操作7、BaseMapper8、两个注解 二、多表查询1、模拟用户订单2、通过用户查相关订单3、UserMapperNew4、查询订单和所属用户5、OrderMapper6、OrderController 三、条件查询四、分页查询…

【Ubuntu】用 VMware 安装 macOS

本教程使用 Ubuntu 20.04.6 LTS,VMware Workstation Pro 17.5.1,macOS Sonoma 14.4。文中所有需要的下载链接均以 Markdown 的形式体现在文字上。 下载 VMware Workstation Pro,目前最新版本是 17.5.1。 使用密钥,进行破解。 VM…