日常学习记录随笔-大数据之日志(hadoop)收集实战

在这里插入图片描述

数据收集(nginx)--->数据分析---> 数据清洗--->数据聚合计算---数据展示
可能涉及到zabix 做任务调度
我们的项目 电商日志分析
比如说我们现在有一个系统,我们的数仓建立也要有一个主题
我这个项目是什么我要干什么定义方向
对用户进行分析,用户信息 
要懂整个数据的流程1. 前端埋点数据
2. java业务端数据 (比如说 支付成功或者支付失败我要发到nginx 服务上)
3. java (oltp数据)
4. nginx 负载均衡 反向代理,基于nginx的access.log文件可以做日志收集  
进而统计网站的pv埋点日志一条日志  229字节  一条埋点日志229字节10000w的点击量*229字节 (存储hdfs)

在这里插入图片描述

nginx 专门做日志收集 
flume专门做日志采集
我们的日志分结构化和非结构化日志

在这里插入图片描述

DATAX/sqoop可以做数据迁移  数仓分离线数仓 以及实时数仓

在这里插入图片描述

前端基于事件触发的埋点 比如说点击事件 
java支付成功,支付失败的事件,可能Java业务端 付款成功会发一条请求  发送到nginx 服务上

在这里插入图片描述

我们的日志已经拿到了 包括支付成功,支付失败或者pv 点击事件
我们会吧日志统一发送到------>nginx 负责采集
nginx 的access.log 帮我们做统计日志的情况

在这里插入图片描述
在这里插入图片描述

然后我们可以基于awk sed grep 来进行nginx日志的处理
nginx的access.log   我们的pv就出来了  我们nginx就充当了  日志收集着的角色然后我们可以启动一个springboot项目 通过maven打包  java-jar 执行
nginx 收集到日志,我们下一步要吧这个nginx日志打到hdfs中
接下来我们要配置flume 吧nginx数据导入到hdfs中 

在这里插入图片描述

flume可以监控log的变化  我们吧数据从nginx 通过flume导入到了hdfs中 接下来我们要做的就是数据清洗

如何吧数据进行拆解 拆解成我们想要的样子   我们要基于我们的业务 来分析 用什么软件 用了多少台服务器 集群配置  集群规划(什么版本)

在这里插入图片描述

数据采集

在这里插入图片描述

etl:做数据清洗,去除脏数据.如何吧数据进行拆解 拆解我们想要的样子

在这里插入图片描述

在这里插入代码片

在这里插入图片描述

做数据采集的思路

在这里插入图片描述
在这里插入图片描述

我到时候可以分析出  一个用户在一个会话中访问了多少网站
吧数据进行拆分  我们etl会拿出数据进行分析 比如说ip,他们就会知道在那个地方访问的我
用的什么浏览器

在这里插入图片描述

浏览器信息
基于一个会话 我就可以知道他的页面链路了
基于mr进行解析日志    之后映射成表
我们的数据就洗出来了
然后我们建维度 就给各个维度表里面导数据了
当我们访问服务器的时候 就会有埋点日志
java/js========>nginx 埋点日志数据----->hdfs -->(基于mr去进行拆解以及数据清洗)-->导入hive
mr的作用帮我们解析日志 
首先数据我们已经做了一些简单的清洗,错误的数据已经是没有了,不符合规则的数据
我们肯定对数据进行一些计算
我们要基于我们的业务数据进行建模(建立各种维度表)  
先确定我们要分析的维度 (需求) ----------->基于维度建表
我们会设计很多的维度表  来满足我们的需求

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/99704.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

三十、【进阶】B树的演变过程

1、索引结构 (1)二叉树 (2)B-Tree树 B-Tree树最大度数为5,代表每一个节点最多存储4个key(每个节点最多存储4个数据),5个指针(可以指向5个子节点)。 2、演变过程(最大度数为5) &…

基于Spring Boot的网上租贸系统设计与实现(源码+lw+部署文档+讲解等)

文章目录 前言具体实现截图论文参考详细视频演示代码参考源码获取 前言 💗博主介绍:✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技…

请问耳机降噪是如何实现的编程零碎知识就业指导词汇积累

目录 请问耳机降噪是如何实现的 编程零碎知识 就业指导 词汇积累 自杀率前五国家 请问耳机降噪是如何实现的 耳机降噪(Noise-Cancelling Headphones)是一种通过使用先进的技术来减少或消除外部环境噪音,以提供更清晰、更安静的音频体验的…

保研经历分享(一)

这个系列的文章主要是想记录一下自己大学期间最重要的一件事(保研!!)的经历、过程,外加一些保研流程介绍、面试经验、院校投递、踩坑经历,主要给学弟学妹们避雷,也做一些借鉴吧~ 这一篇主要是对保研过程的一些介绍&…

全志R128芯片应用开发案例——驱动 WS2812 流水灯

驱动 WS2812 流水灯 本文案例代码下载地址驱动 WS2812 流水灯案例代码https://www.aw-ol.com/downloads?cat24 R128-DevKit 拥有4颗 WS2812 LED,本文将详细叙述如何点亮他们。 LEDC 模块简介 LEDC 硬件方框图如上图所示,CPU 通过 APB 总线操作 LEDC 寄…

【智能家居项目】裸机版本——认识esp8266 | 网络子系统

🐱作者:一只大喵咪1201 🐱专栏:《智能家居项目》 🔥格言:你只管努力,剩下的交给时间! 如上图整个智能家居程序总体框架图,还剩下网络子系统没有实现,以及最终…

Idea JavaWeb项目,继承自HttpFilter的过滤器,启动Tomcat时部署工件出错

JDK版本:1.8 Tomcat版本:8.5 10-Oct-2023 13:55:17.586 严重 [RMI TCP Connection(3)-127.0.0.1] org.apache.catalina.core.StandardContext.startInternal One or more Filters failed to start. Full details will be found in the appropriate conta…

2023年中国涂料助剂市场发展历程及趋势分析:中高端助剂市场规模将会迎来新的增长[图]

涂料助剂又称油漆辅料,系配制涂料的辅助材料,能改进涂料性能,促进涂膜形成。种类很多,包括催干剂、增韧剂、乳化剂、增稠剂、颜料分散剂、消泡剂、流平剂、抗结皮剂、消光剂、光稳定剂、防霉剂、抗静电剂等,其中用量最…

虹科分享 | 谷歌Vertex AI平台使用Redis搭建大语言模型

最近,谷歌宣布旗下Vertex人工智能平台最新支持了生成式人工智能,是什么支持语言模型实现与人类的语言交互呢?语言模型的大量知识储备从何而来呢? 一、语言模型构件 应用程序生成、理解和使用人类语言的能力正变得越来越重要&…

java日志框架详解-Log4j2

一、概述 Apache Log4j 2 (Log4j – Apache Log4j 2)是对Log4j的升级,它比其前身Log4j 1.x提供了重大改进,并参考了Logback中优秀的设计,同时修复了Logback架构中的一些问题。被誉为是目前最优秀的Java日志框架&#x…

Mac电脑版鼠标连点工具 RapidClick for Mac

RapidClick是一款简单实用的自动点击软件。它可以模拟鼠标点击操作,以便快速、连续地点击屏幕上的特定位置。该软件通常用于自动执行重复性的点击任务或加快某些操作的速度。 以下是RapidClick可能提供的一些主要功能和特点: 自动点击功能:R…

C++对string进行大小写转换的三种方法

C对string进行大小写转换的三种方法 方法一&#xff1a;下标 #include <iostream> #include <string> using namespace std;int main() {string s "ABCDEFG";for( int i 0; i < s.size(); i ){s[i] tolower(s[i]);}cout<<s<<endl;re…

LATR:3D Lane Detection from Monocular Images with Transformer

参考代码&#xff1a;LATR 动机与主要工作&#xff1a; 之前的3D车道线检测算法使用诸如IPM投影、3D anchor加NMS后处理等操作处理车道线检测&#xff0c;但这些操作或多或少会存在一些负面效应。IPM投影对深度估计和相机内外参数精度有要求&#xff0c;anchor的方式需要一些如…

SpringCloud学习笔记-Ribbon负载均衡

目录 1.负载均衡策略2.自定义负载均衡策略3.饥饿加载 SpringCloudRibbon的底层采用了一个拦截器&#xff0c;拦截了RestTemplate发出的请求&#xff0c;对地址做了修改。用一幅图来总结一下&#xff1a; 基本流程如下&#xff1a; 拦截我们的RestTemplate请求http://userserv…

增强LLM:使用搜索引擎缓解大模型幻觉问题

论文题目&#xff1a;FRESHLLMS:REFRESHING LARGE LANGUAGE MODELS WITH SEARCH ENGINE AUGMENTATION 论文地址&#xff1a;https://arxiv.org/pdf/2310.03214.pdf 论文由Google、University of Massachusetts Amherst、OpenAI联合发布。 大部分大语言模型只会训练一次&#…

毛玻璃 has 选择器卡片悬停效果

效果展示 页面结构 从上述的效果展示可以看到&#xff0c;页面是由多个卡片组成&#xff0c;并且鼠标悬停在卡片上时&#xff0c;会旋转用户图片并且韩式对应的用户信息框。 CSS3 知识点 :has 属性的运用 实现页面整体结构 <div class"container"><div…

linux | linux扩大磁盘空间 | centos7.9 | 虚拟机

注意&#xff1a;可以完全参考下面这边博客&#xff08;我只是搬运工&#xff09; centos扩大磁盘空间 简单讲讲&#xff0c;为什么有点失落落的&#xff1f; 明明就是一个 很程序化的东西 可是网上一大推 天花乱坠 而且很多人都是半吊子水&#xff0c;甚至半吊子都没有 通过关…

Ubuntu16.04apt更新失败

先设置网络设置 换成nat、桥接&#xff0c;如果发现都不行&#xff0c;那么就继续下面操作 1.如果出现一开始就e&#xff0c;检查源&#xff0c;先换源 2.换完源成功之后&#xff0c;ping网络&#xff0c;如果ping不通就是网络问题 如果ping baidu.com ping不通但是ping 112…

[网鼎杯 2018]Comment git泄露 / 恢复 二次注入 bash_history文件查看

首先我们看到账号密码有提示了 我们bp爆破一下 我首先对数字爆破 因为全字符的话太多了 爆出来了哦 所以账号密码也出来了 zhangwei zhangwei666 没有什么用啊 扫一下吧 有git git泄露 那泄露看看 真有 <?php include "mysql.php"; session_start(); if(…