大数据之路 读书笔记 Day2

大数据之路 读书笔记 Day2

日志采集——浏览器的页面采集

一、分类

日志采集
页面浏览日志采集
页面交互日志采集
采集浏览器与用户的互动
两大指标
两大指标 PV(页面浏览量) UV(访客数)

二、流程

浏览日志采集流程图

在这里插入图片描述
本质就是在用户请求联网时,阿里的服务器会在构造用户所需文档时,插入日志采集代码,在用户界面解析渲染成功时,将用户成功浏览的日志传到特定的服务器做下一步处理

“黄金令箭”——交互日志采集
  • 黄金令箭是一个开放的基于HTTP协议的日志服务

关于黄金令箭的日志采集有以下四个步骤:

(1)业务方在“黄金令箭”的元数据管理界面依次注册需要采集交互日志的业务、具体的业务场景以及场景下的具体交互采集点,在注册完成之后,系统将生成与之对应的交互日志采集代码模板。

(2)业务方将交互日志采集代码植入目标页面,并将采集代码与需要监测的交互行为做绑定。

(3)当用户在页面上产生指定行为时,采集代码和正常的业务互动响应代码一起被触发和执行。

(4)采集代码在采集动作完成后将对应的日志通过HTTP协议发送到日志服务器,日志服务器接收到日志后,对于保存在HTTP请求参数部分的自定义数据,即用户上传的数据,原则上不做解析处理,只做简单的转储。

经过上述步骤采集到日志服务器的业务日志可被业务方按需自行解析处理,并与正常的PV日志做关联运算。

三、页面日志的服务端清洗和预处理

  1. 识别流量攻击、网络爬虫和流量作弊

    依托算法识别,道阻且长。

流量攻击
流量攻击,是一种恶意尝试,通过大量无效的请求占用目标系统的资源,如带宽、CPU、内存等,导致其无法为合法用户提供服务。攻击者通常利用一个庞大的计算机网络(僵尸网络)向目标网站或服务器发送大量的数据包或请求,使得目标系统超负荷运行,最终导致服务中断或响应极其缓慢。常见的流量攻击类型包括SYN Flood、UDP Flood、ICMP Flood等。
网络爬虫
网络爬虫,也叫网页蜘蛛或网络机器人,是一种自动化程序,用于遍历万维网,连续抓取网页内容。它们根据预先设定的规则或算法自动请求网页、解析HTML代码并提取所需信息,常用于搜索引擎索引构建、数据分析、价格监控、内容聚合等领域。合理使用网络爬虫可以高效收集公开信息,但过度或不遵守网站爬虫政策的爬取行为可能对网站服务器造成负担,甚至违反法律法规。
流量作弊
流量作弊是指采用非正常手段人为制造虚假的网站访问量、点击率、观看次数或其他在线互动指标的行为。这种行为旨在欺骗广告商、投资者或提高网站排名,以获取不当利益。常见的作弊手段包括自动点击广告、使用僵尸网络模拟真实用户访问、购买假流量等。流量作弊不仅损害了广告主的利益,破坏了市场公平竞争环境,也干扰了数据分析的准确性,影响了互联网生态的健康发展。

  1. 数据缺项补正

    例如,在用户登陆后,对登陆前页面日志做身份信息的回补

  2. 无效信息剔除

  3. 日志隔离分发

    基于数据安全、业务特性考虑,某些日志在进入公共数据环境之前需要做隔离。

原始日志经过上述的清洗、修正,并结构化变形处理之后,Web 页面日志的采集流程就算完成了。此时的日志已经具备了结构化或者半结构化的特征,可以方便地被关系型数据库装载和使用。


今天的笔记分享到这里就结束啦~
点赞收藏关注,获取更多干货知识~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/863741.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【python爬虫实战】爬取豆瓣top250(网站有反爬虫机制肿么办)

关于请求头headers: 值得注意的是,与上一篇 :​​​​​​【python爬虫实战】爬取书店网站的 书名&价格(注释详解)-CSDN博客 爬取书名不同,这次爬取豆瓣网站必须使用“请求头headers”,不然将没有输…

js使用异步方法(promise)返回回调参数内的值,

需求分析 使用回调方式的异步方法时,需要返回异步操作的结果,这个时候就不能直接在回调函数内返回值,因为回调函数需要等待异步操作结束才执行,而同步调用返回值时,异步操作没有结束,回调函数就没有执行完成…

深入解析目标检测中的正负样本不平衡问题及其解决方案

目标检测是计算机视觉领域的核心任务之一,它旨在从图像或视频中识别和定位感兴趣的目标。然而,在实际应用中,目标检测算法常常面临正负样本不平衡问题,这会严重影响检测性能。本文将详细探讨正负样本不平衡问题的定义、成因、影响…

每天五分钟深度学习框架pytorch:tensor向量之间常用的运算操作

本文重点 在数学中经常有加减乘除运算,在tensor中也不例外,也有类似的运算,本节课程我们将学习tensor中的运算 常见运算 加法+或者add import torch import numpy as np a=torch.rand(16,3,28,28) b=torch.rand(1,3,28,28) print(a+b) import torch import numpy as np a…

力扣SQL50 连续出现的数字 distinct

Problem: 180. 连续出现的数字 👨‍🏫 力扣官解 Code SELECT DISTINCTl1.Num AS ConsecutiveNums FROMLogs l1,Logs l2,Logs l3 WHEREl1.Id l2.Id - 1AND l2.Id l3.Id - 1AND l1.Num l2.NumAND l2.Num l3.Num ;

用Lobe Chat部署本地化, 搭建AI聊天机器人

Lobe Chat可以关联多个模型,可以调用外部OpenAI, gemini,通义千问等, 也可以关联内部本地大模型Ollama, 可以当作聊天对话框消息框来集成使用 安装方法参考: https://github.com/lobehub/lobe-chat https://lobehub.com/zh/docs/self-hosting/platform/…

探索 Symfony 框架:工作原理、特点及技术选型

目录 1. 概述 2. Symfony 的工作原理 2.1 MVC 架构 2.2 前端控制器模式 2.3 路由机制 2.4 依赖注入容器 2.5 事件驱动架构 3. Symfony 的特点 3.1 高度可扩展性 3.2 强大的社区支持和生态系统 3.3 优秀的性能和可伸缩性 3.4 严格的代码规范和最佳实践 4. Symfony …

DELL:利用大语言模型(LLM)生成评论与解释,革新虚假信息检测

ACL 2024 DELL: Generating Reactions and Explanations for LLM-Based Misinformation Detection https://arxiv.org/abs/2402.10426https://arxiv.org/abs/2402.10426 1.概述 大型语言模型(LLM)虽在诸多领域显示出色性能,但在直接应用于新闻真实性鉴别时,面临两大核心挑…

【OpenHarmony4.1 之 U-Boot 2024.07源码深度解析】013 - arch\arm\lib\crt0_64.S 汇编源码逐行详解

【OpenHarmony4.1 之 U-Boot 2024.07源码深度解析】013 - arch\arm\lib\crt0_64.S 汇编源码逐行详解 一、arch\arm\lib\crt0_64.S 汇编源码 - 简单梳理及注释系列文章汇总:《【OpenHarmony4.1 之 U-Boot 源码深度解析】000 - 文章链接汇总》 本文链接:《【OpenHarmony4.1 之 …

百亿级存储架构: ElasticSearch+HBase 海量存储架构与实现

百亿级存储架构: ElasticSearchHBase 海量存储架构与实现 尼恩:百亿级数据存储架构起源 在40岁老架构师 尼恩的读者交流群(50)中,经常性的指导小伙伴们改造简历。 经过尼恩的改造之后,很多小伙伴拿到了一线互联网企业如得物、阿…

多平台自动养号【开心版】偷偷使用就行了!

大家好,今天我无意间发现了一款【多平台自动养号工具】,看了一下里面的功能还是挺全面的,包含了【抖音,快手,小红薯】还有一些截流功能 虽然这款工具功能强大,但美中不足的是需要付费的。但别担心&#xf…

Linux操作系统学习:day08

内容来自:Linux介绍 视频推荐:Linux基础入门教程-linux命令-vim-gcc/g -动态库/静态库 -makefile-gdb调试 目录 day0853、命令和编辑模式之间的切换54、命令模式到末行模式的切换与末行模式下的保存退出命令模式到末行模式的切换保存退出 55、末行模式…

Java中的安全编码实践与防御技巧

Java中的安全编码实践与防御技巧 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿!今天我们将探讨Java中的安全编码实践与防御技巧,这对于开发人员来说…

Spring Boot项目的两种发布方式

一、通过jar包发布 1、在pom中添加一个SpringBoot的构建的插件 <build><plugins><plugin><groupId>org.springframework.boot</groupId><!--自动检测项目中的 main 函数--><artifactId>spring-boot-maven-plugin</artifactId>…

【硬件视界2】CPU和GPU:计算机架构的双子星

名人说&#xff1a;莫听穿林打叶声&#xff0c;何妨吟啸且徐行。—— 苏轼《定风波莫听穿林打叶声》 本篇笔记整理&#xff1a;Code_流苏(CSDN)&#xff08;一个喜欢古诗词和编程的Coder&#x1f60a;&#xff09; 目录 1、CPU (中央处理器)①主要作用②特点 2、 GPU (图形处理…

Jmeter下载、安装及配置

1 Jmeter介绍 Jmeter是进行负载测试的工具&#xff0c;可以在任何支持Java虚拟机环境的平台上运行&#xff0c;比如Windows、Linux、Mac。 Jmeter模拟一组用户向目标服务器发送请求&#xff0c;并统计目标服务器的性能信息&#xff0c;比如CPU、memory usage。 2 Jmeter下载 …

Apple - Text Layout Programming Guide

本文翻译整理自&#xff1a;Text Layout Programming Guide&#xff08;更新日期&#xff1a;2014-02-11 https://developer.apple.com/library/archive/documentation/Cocoa/Conceptual/TextLayout/TextLayout.html#//apple_ref/doc/uid/10000158i 文章目录 一、文本布局编程指…

std::vector<>的{}用法与stl中的共享指针

讨论 std::vector&#xff1c;&#xff1e;的{}用法比较方便&#xff0c;在stl中的共享指针中是否适用&#xff1f; 代码 #include <iostream> #include <memory> #include <vector> using namespace std;int main() {vector<int> vt1({1,3,5});vec…

element tree 设置check-strictly=true后,手动重写逻辑实现父子关联

前言 遇到需求如下&#xff1a; 当取消勾选某个节点为按钮时&#xff0c;并且该节点的同级节点都为按钮时&#xff08;此时父级是勾选状态&#xff09;&#xff0c;不管同级节点是否都取消勾选&#xff0c;那么父级不取消勾选。除非手动取消父级勾选&#xff08;原因是&#…

[python] Python日志记录库loguru使用指北

Loguru是一个功能强大且易于使用的开源Python日志记录库。它建立在Python标准库中的logging模块之上&#xff0c;并提供了更加简洁直观、功能丰富的接口。Logging模块的使用见&#xff1a;Python日志记录库logging总结。Loguru官方仓库见&#xff1a;loguru&#xff0c;loguru官…