实战电商大数据项目搭建||电商大数据采集||电商API接口

我会提供给你大概1亿条真实的互联网用户上网数据,至于来源,我先不告诉你,绝对是你在网络上无法找到的宝贵数据源。

此外,还会给你提供一个基于当前数据特点而设计的大数据处理方案。

当然,为了防止用户的隐私部分被泄露,我对一些关键字段进行了脱敏,如果说你有什么坏心思的话,暂时就别想了。但是即便如此,这份数据,我相信对你学习大数据的用处都是非常大的。

|数据源解读|数据API接口

这份数据长这样,有非常规整的9个字段(我都替你清洗过了),为了方便你们读取,我把它导出成CSV文件,其中第一行是schema。

图片

为了方便大家获取,我把它放到了云盘上,原文件有12G,我通过压缩之后,也有3G,为了保证大家是真的用这份数据在学习,而不是干别的,这个下载地址需要你加我微信后告诉你。

现在来帮你解读下这份数据,一共个9个字段,其字段意义解释分别如下:

client_ip: 指上网用户的ip地址,你可以根据这个ip知道这个用户大概的位置信息,这个有专门的api可以查询;

domain:指上网人要上的网站地址,你可以根据该网站的性质来判断这个人的上网行为;

time:上网人的上网时间;

target_ip: 上网人要上的网站的目标ip地址;

rcode:网站返回状态码,0为正常响应,2为不正常;

query_type: 查询类型,几乎都是1,即正常上网行为;

authority_recode:网站服务器真正返回的域名,可能跟domain不一样,如果不一样的话,可能说明是个钓鱼网站之类的,你可以去分析分析;

add_msg: 附加信息,几乎都为空,你可以看看如果有内容的话,到底是什么玩意;

dns_ip:当前要上的这个网站由哪个DNS服务器给提供的解析,一般一个DNS服务器会服务一个区域,如果由同一个DNS服务器进行解析的,说明他们在同一片大的区域;

以上是对这份数据的字段解读,相信从这些解释中,你已经大概能了解这份数据的作用了。

|如何建大数据项目

既然数据源了解清楚了,也就知道了大概的业务场景

那么接下来就是如何架构一个大数据项目,为了保证项目的完整性、紧凑性、和易上手性,我特意设计了一个时下最流行的lamda数据处理架构,供你参考:

图片

可以看到,该架构包含了完整的、任何大数据系统都具备的:数据接入、数据落地、数据计算、结果存储,以及最后的结果展现功能。

通过对这个有着完整功能的大数据系统进行实践和学习,如果你能把这套架构真正玩好的话,你会发现,市面上任何复杂的大数据架构在你眼里也不过尔尔,你会有种【万变不离其宗】的掌控感。

当然,这里我只是给你提供参考,具体实践还得看你具体情况,如果你已经有集群环境了,我希望你能尽可能去贴近我的这个架构,因为万一你在实践中出了什么问题,都可以来找我交流探讨。

|你要做哪些准备

数据给你了,架构也给你确定了,接下来你需要做的是:根据以上要求,搭建一套集群环境,这个集群你可以是自己的虚拟机,有条件也可以租个云服务器,然后构建4个节点的集群环境,具体配置建议如下:

节点角色硬件配置节点数量
主节点/客户端节点4G以上内存、50G以上硬盘,4核以上CPU1
计算/存储节点8G以上内存、100G以上硬盘,8核以上CPU3

当然,以上是建议配置,有人说我电脑配置不够怎么办?没事,你可以适当降低要求,配置可以再降低一点,节点数量最好不要低于3个,你需要知道一点的是,配置越低,你玩数据的自由度就越低,但是还是可以玩。

以上配置准备OK,那么接下来你就需要安装集群了,相信这个对于一个学习大数据的人来说,是最基础的一步了,因为只有你会安装了,才能建立起对各个大数据组件大概是个什么东东有个初步的了解。

根据我给的架构要求,你要安装以下这些组件:

1,Hadoop:HDFS+YARN,这个是集群的底座,hive、spark都依赖它;

2,Filebeat:数据源接入工具,这个用来监控数据源变化的,然后将新增的数据写入到kafka,我是觉得它好用,所以向你推荐,当然,如果你用别的工具也可以,那就用你喜欢的代替;

3,kafka:这个不多介绍,当前最流行的流式架构的当红炸子鸡,用来承载流式数据的落地;

4,spark:当今最流行的流批一体分布式计算引擎之一,用他来做数据分析处理;

5,hive:当今大数据的主流数仓组件,用来做离线数据存储和分析;

6,Elasticsearch:当下最流行的分布式搜索引擎,用来做全文检索非常的高效、方便,用来存储分析后的数据;

7,kibana:专门对Elasticsearch数据进行可视化展现的,用它,你可以直观的看到你最后分析的结果数据是个什么样子;

看着是不是很多?首先不要急,一个个安装,其实很快,网上有很多安装部署的教程,这里我就不赘述,你有问题了再找我交流。

其次呢,这些技术组件都是当下主流的,组合在一起,让你在一个实际项目中练手,对你非常有帮助,你试试就知道了。

至于安装的版本,我建议你们不要安装最新的,给你们参考我目前测试集群的版本:HDP3.1(hadoop3.1,kafka、hive都给你关联好) + Elasticsearch7.6。

如果你想部署跟我一样的版本,可以私信找我要安装包,我这全套都有。当然,跟我部署一样,还有个好处就是,你遇到任何技术问题,我应该都可以帮你搞定,因为我,可能都遇到过。

|最后

想告诉你的是,想要学好大数据,动手实践一定是最重要的,我相信你如果能够按照我的这个要求一步步,脚踏实地去做,你的大数据技能一定能得到一个质的飞跃。

不信,你来打我。

PS:可能有人会问,这些数据,基于什么业务要求去做开发呢?

来,给你点思路:

1,用wordcount的方式去统计每个client_ip的数量,看哪些ip上网的次数最多?批处理的方式,跟流式实时的方式都试一下,看结果是否一致?

2,看上网最多的,那几个ip,都上的什么网站,集中上网的时间点都是几点?

3,被上的最多的网站中对应的ip,跟上网最多的ip之间有多少是重合的?

4,哪些ip喜欢上一些类似钓鱼网站的网站;

5,....

怎么样?是不是思路一下子就打开了?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/32303.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何提升外链网站的收录率?

要提高外链网站的收录率,要明确的一点是,被收录的外链才能发挥最大的作用,因此,提升收录率是首要任务。一个有效的方法是使用GPC爬虫池,这样可以大幅度提高谷歌蜘蛛对众多外链网站页面的抓取频率 通过GPC爬虫池的引导…

【LeetCode热题 100】螺旋矩阵

leetcode原地址:https://leetcode.cn/problems/spiral-matrix/description 描述 给你一个 m 行 n 列的矩阵 matrix ,请按照 顺时针螺旋顺序 ,返回矩阵中的所有元素。 示例 1: 输入:matrix [[1,2,3],[4,5,6],[7,8…

使用Scala爬取安居客房产信息并存入CSV文件

使用Scala爬取安居客房产信息并存入CSV文件 本篇博客中,我们将介绍如何使用Scala语言编写一个简单的程序,来爬取安居客(Anjuke)网站上的房产信息,并将这些信息存储到CSV文件中。这个示例将涵盖HTTP请求、HTML解析、数…

00 - matlab m_map地学绘图工具安装及简单使用教程

00 - matlab m_map地学绘图工具安装及简单使用教程 0. 引言1. m_map工具的获取及配置过程2. 绘图示例3. 结语 0. 引言 m_map是MATLAB中的一个绘图工具包,用于绘制地图和地理数据。它提供了一系列函数,可以用来绘制地理投影、添加地理特征、绘制等值线图等…

「漏洞复现」真内控国产化开发平台 preview 任意文件读取漏洞

0x01 免责声明 请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,作者不为此承担任何责任。工具来自网络,安全性自测,如有侵权请联系删…

[SAP ABAP] 运算符与操作符

1.算数运算符 算术运算符描述加法-减法*乘法/除法MOD取余 示例1 输出结果: 输出结果: 2.比较运算符 比较运算符描述示例 等于 A B A EQ B <> 不等于 A <> B A NE B >大于 A > B A GT B <小于 A < B A LT B >大于或等于 A > B A GE B <小…

AI都那么发达了,我还有必要学习编程吗

尽管 AI 技术在不断发展&#xff0c;但学习编程仍然具有重要的意义和价值。 以下是一些原因&#xff1a; 培养逻辑思维和解决问题的能力&#xff1a;编程需要你思考问题、设计算法和解决难题。通过学习编程&#xff0c;你可以锻炼自己的逻辑思维能力&#xff0c;提高分析和解决…

用Python实现抖音新作品监控助手,实时获取博主动态

声明&#xff1a; 本文以教学为基准、本文提供的可操作性不得用于任何商业用途和违法违规场景。本人对任何原因在使用本人中提供的代码和策略时可能对用户自己或他人造成的任何形式的损失和伤害不承担责任。包含关注&#xff0c;点赞等 该项目的主要功能是通过Python代码&…

基于Java技术的摄影跟拍预定管理系统

你好&#xff0c;我是热衷于计算机科学与技术研究的码农小野。如果你对摄影跟拍预定管理系统感兴趣或有相关开发需求&#xff0c;欢迎私信交流。 开发语言 Java 数据库 MySQL 技术 B/S模式&#xff0c;SpringBoot 工具 Eclipse&#xff0c;Navicat&#xff0c;Tomcat …

芝麻清单助力提升学习工作效率 专注时间完成有效的待办事项

芝麻清单助力提升学习&工作效率 专注时间完成有效的工作。今天我们给大家带来一个专注清单&#xff0c;一个更高效的学习和工作的方法&#xff01; 我们都知道&#xff0c;专注做一个事情&#xff0c;会有效的提升效率&#xff0c;让事情更高效的完成。如果是学习的话&…

《窄门》读后感

《窄门》这本书是端午节期间在地铁和高铁上看完的&#xff0c;书的故事很简单&#xff0c;描绘的是一段爱而不得的感情。但是&#xff0c;这本书写的爱而不得和其他地方的爱而不得完全不是一码事&#xff0c;其他地方的爱而不得要么是“落花有意随流水&#xff0c;流水无意恋落…

fastapi+vue3+primeflex前后端分离开发项目环境搭建

创建后端项目 创建文件夹&#xff1a; mkdir backend创建python虚拟环境&#xff1a; python -m venv venv使用Pycharm打开文件夹&#xff0c;然后配置python解释器为venv虚拟环境。 安装fastapi&#xff1a; pip install "fastapi[all]"编写第一个程序&#xf…

刷代码随想录有感(112):动态规划——组合总和IV

题干&#xff1a; 代码&#xff1a; class Solution { public:int combinationSum4(vector<int>& nums, int target) {vector<int>dp(target 1, 0);dp[0] 1;for(int j 0; j < target; j){for(int i 0; i < nums.size(); i){if(j > nums[i] &…

第二次IAG

IAG in NanJing City 我与南京奥体的初次相遇&#xff0c;也可能是最后一次&#xff01; 对我来说,IAG 演唱会圆满结束啦! 做了两场充满爱[em]e400624[/em]的美梦 3.30号合肥站&#xff0c;6.21号南京站[em]e400947[/em] 其实&#xff0c;没想到昨天回去看呀!(lack of money […

物理层(二)

2.2 传输介质 2.2.1 双绞线、同轴电缆、光纤和无线传输介质 传输介质也称传输媒体&#xff0c;是数据传输系统中发送器和接收器之间的物理通路。传输介质可分为:①导向传输介质&#xff0c;指铜线或光纤等&#xff0c;电磁波被导向为沿着固体介质传播:②)非导向传输介质&…

C# 与三菱PLC MC协议通讯

1. 引用HslCommunication Nuget包里边添加 HslCommunication包的引用 2.创建PLC连接对象&#xff0c;并通过 IP&#xff0c;端口进行连接 //PLC连接对象 var plc new MelsecMcNet(_ip, _port); plc.ConnectTimeOut 3000;var res plc.ConnectServer();//连接PLCisConnect …

软件测试笔记

一、介绍 软件测试是为了尽可能多地发现软件系统中的错误而不是证明软件的正确性。 1、软件缺陷是什么&#xff1f; 软件在使用过程中存在的任何问题都叫软件的缺陷&#xff0c;简称bug。 缺陷的判定标准 软件未实现需求说明书中明确要求的功能——少功能 软件出现了需求说…

已解决java.rmi.activation.ActivationException异常的正确解决方法,亲测有效!!!

已解决java.rmi.activation.ActivationException异常的正确解决方法&#xff0c;亲测有效&#xff01;&#xff01;&#xff01; 问题分析 java.rmi.activation.ActivationException 是与Java RMI&#xff08;远程方法调用&#xff09;的激活机制相关的一种已检查异常。这个异…

遍历二叉树和线索二叉树

目录 一、*遍历二叉树 1.1遍历定义 1.2遍历目的 1.3遍历用途 1.4遍历方法 1.4.1先序遍历&#xff08;DLR&#xff09; 1.4.2中序遍历&#xff08;LDR&#xff09; 1.4.3后序遍历&#xff08;LRD&#xff09; 1.5根据遍历序列确定二叉树 1.6遍历算法的实现 1.6.1先序遍…