【分布式计算框架 MapReduce】高级编程—搜索日志数据分析

【分布式计算框架 MapReduce】高级编程—搜索日志数据分析

web/2025/7/3 12:09:57/文章来源:https://blog.csdn.net/m0_67830223/article/details/139996538

目录

一、对于 sogou_500w_utf 数据，使用 MapReduce 编程模型完成对以下数据的分析任务

1. 统计 2011-12-30 日搜索记录，每个时间段的搜索次数

（1）运行截图

（2）源代码

2. 统计 2011-12-30 日 3 点至 4 点之间，哪些 UID 访问了搜狗引擎。

（1）运行截图

（2）源代码

二、有两个输入文件 A 和 B，使用 MapReduce 编程合并文件，得到输出文件 C

1. 输入文件A和B如下

2. 通过MapReduce编程合并文件得到outputC

3. 源代码

一、对于 sogou_500w_utf 数据，使用 MapReduce 编程模型完成对以下数据的分析任务

1. 统计 2011-12-30 日搜索记录，每个时间段的搜索次数

（每小时为一个单位，比如 0 点钟多少次，1 点钟多少次，2 点钟多少次，一直到 23 点多少次）

（1）运行截图

hadoop jar /home/2130502441ryx/SearchCountJob.jar org/ryx/SearchCountJob /sogou.500.utf8 /output5

hdfs dfs -ls /output5hdfs dfs -cat /output5/part-r-00000

（2）源代码

① SearchCountMapper

② SearchCountReduct

③ SearchCountJob

2. 统计 2011-12-30 日 3 点至 4 点之间，哪些 UID 访问了搜狗引擎。

（1）运行截图

hadoop jar /home/2130502441ryx/UIDCountJob.jar org/ryx/SogouDriver /sogou.500.utf8 /output7

(下面截图贴错了，上面的运行命令才是正确的)

hdfs dfs -ls /output7hdfs dfs -cat /output7/part-r-00000

（2）源代码

SogouMapper.java

SogouReducer.java

SogouDriver.java

二、有两个输入文件 A 和 B，使用 MapReduce 编程合并文件，得到输出文件 C

输入文件 A 的样例如下：

20150101 x

20150102 y

20150103 x

20150104 y

20150105 z

20150106 x

输入文件 B 的样例如下：

20150101 y

20150102 y

20150103 x

20150104 z

20150105 y

根据输入文件 A 和 B 合并得到的输出文件 C 的样例如下：

20150101 x

20150101 y

20150102 y

20150103 x

20150104 y

20150104 z

20150105 y

20150105 z

20150106 x

1. 输入文件A和B如下

hdfs dfs -cat /inputA

hdfs dfs -cat /inputB

2. 通过MapReduce编程合并文件得到outputC

hadoop jar /home/2130502441ryx/MergeFiles.jar org/ryx/MergeFiles /inputA /inputB /outputC

hdfs dfs -cat /outputC/part-r-00000

3. 源代码

① MergeMapper

② MergeReducer

③ MergeFiles

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/web/37253.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

2024最新初级会计职称题库来啦！！！

2024最新初级会计职称题库来啦！！！

16.根据增值税法律制度的规定，下列各项中，属于"提供加工、修理修配劳务"的是（）。 A.修理小汽车 B.修缮办公楼 C.爆破 D.矿山穿孔答案：A 解析：选项AB：修理有形动产（…

阅读更多...

【PL理论深化】(13) 变量与环境：文法结构 | 真假表达式：isZero E | let 表达式叠放 | 定义的规则 | 条件语句的使用

【PL理论深化】(13) 变量与环境：文法结构 | 真假表达式：isZero E | let 表达式叠放 | 定义的规则 | 条件语句的使用

💬 写在前面：从现在开始，让我们正式设计和实现编程语言。首先，让我们扩展在之前定义的整数表达式语言，以便可以使用变量和条件表达式。目录 0x00 文法结构 0x01 真假表达式：isZero E 0x02 let 表达式叠…

阅读更多...

Elasticsearch 第四期:搜索和过滤

Elasticsearch 第四期:搜索和过滤

序 2024年4月，小组计算建设标签平台，使用ES等工具建了一个demo，由于领导变动关系，项目基本夭折。其实这两年也陆陆续续接触和使用过ES，两年前也看过ES的官网，当时刚毕业半年多，由于历史局限性导…

阅读更多...

Java有没有goto语句

Java有没有goto语句

一、技术细节 Java作为一种广泛使用的编程语言，其设计哲学强调清晰、简洁和易于维护。在技术细节层面，Java确实支持goto语句作为关键字，但在实际编程中，goto语句并不被推荐使用。Java中的goto是保留字，主要用于两个场…

阅读更多...

chrome-base源码分析(1)macros模块

chrome-base源码分析(1)macros模块

Chrome-base源码分析(2)之Macros模块 Author：Once Day Date：2024年6月29日漫漫长路，才刚刚开始… 全系列文章请查看专栏: 源码分析_Once-Day的博客-CSDN博客参考文档: macros - Chromium Code SearchChrome base 库详解：工…

阅读更多...

安全架构概述_2.安全架构的定义和范围

安全架构概述_2.安全架构的定义和范围

安全架构是架构面向安全性方向上的一种细分，比如细分领域含有运维架构、数据库架构等。如果安全性体现在产品上，那么，通常的产品安全架构、安全技术体系架构和审计架构可组成三道防线。 （1）产品安全架构：构…

阅读更多...

ArtTS系统能力-通知的学习（3.1）

ArtTS系统能力-通知的学习（3.1）

上篇回顾： ArtTS语言基础类库-容器类库内容的学习(2.10.2） 本篇内容： ArtTS系统能力-通知的学习（3.1） 一、知识储备 1. 基础类型通知按内容分成四类： 类型描述NOTIFICATION_CONTENT_BASIC_TEXT普通文…

阅读更多...

2024 Parallels Desktop for Mac 功能介绍

2024 Parallels Desktop for Mac 功能介绍

Parallels Desktop的简介 Parallels Desktop是一款由Parallels公司开发的桌面虚拟化软件，它允许用户在Mac上运行Windows和其他操作系统。通过强大的技术支持，用户无需重新启动电脑即可在Mac上运行Windows应用程序，实现了真正的无缝切换。二…

阅读更多...

普元EOS学习笔记-创建精简应用

普元EOS学习笔记-创建精简应用

前言本文依旧基于EOS8.3进行描述。在上一篇文章《EOS8.3精简版安装》中，我们了解到普元预编译好的EOS的精简版压缩包，安装后，只能进行低开，而无法高开。 EOS精简版的高开方式是使用EOS开发工具提供的IDE，创建一个…

阅读更多...

东软睿驰总裁兼CTO杜强受邀出席 CICV 2024智能网联汽车技术首脑（CTO）闭门峰会

东软睿驰总裁兼CTO杜强受邀出席 CICV 2024智能网联汽车技术首脑（CTO）闭门峰会

近日，第十一届国际智能网联汽车技术年会（CICV 2024）在北京举办，会议期间组织智能网联汽车技术首脑（CTO）闭门峰会，邀请40余位技术领袖围绕智能网联汽车产业生态建设以及智能网联汽车数据、算力和…

阅读更多...

SQL语句查询Cache数据库中数据时对时间怎样转换

SQL语句查询Cache数据库中数据时对时间怎样转换

使用东华医为HIS系统的用户都知道，Cache数据库中对于日期的存储为几万的数字，比如，今天就是相对于1841年1月1日的第多少万天，以这种形式进行表示；对于时间，也是以数字形式存储，比如，…

阅读更多...

Python的numpy简单使用

Python的numpy简单使用

1.可以调用引入numpy里面的函数，如add可以把俩数相加，也可以创建一个数组arr，arr.shape是数组arr的属性，如果后有跟（）就是里面的一个函数 type()函数可以知道里面是什么类型变量.shape可以知道这个变量是…

阅读更多...

BLEU和SPICE：机器翻译与图像描述的自动评估方法详解

BLEU和SPICE：机器翻译与图像描述的自动评估方法详解

BLEU和SPICE：机器翻译与图像描述的自动评估方法详解在机器翻译和图像描述领域，评估模型性能是一个重要且复杂的问题。为了有效地评估机器生成的文本质量，我们需要一种自动、快速且可靠的方法。BLEU（Bilingual Evaluation Unders…

阅读更多...

基于决策树的旋转机械故障诊断（Python）

基于决策树的旋转机械故障诊断（Python）

前置文章： 将一维机械振动信号构造为训练集和测试集（Python） https://mp.weixin.qq.com/s/DTKjBo6_WAQ7bUPZEdB1TA 旋转机械振动信号特征提取（Python） https://mp.weixin.qq.com/s/VwvzTzE-pacxqb9rs8hEVw import…

阅读更多...

菲尔兹奖得主测试GPT-4o，经典过河难题未能破解！最强Claude 3.5回答离谱！

菲尔兹奖得主测试GPT-4o，经典过河难题未能破解！最强Claude 3.5回答离谱！

目录 01 大言模型能否解决「狼-山羊-卷心菜」经典过河难题？ 02 加大难度：100只鸡、1000只鸡如何？ 01 大言模型能否解决「狼-山羊-卷心菜」经典过河难题？ 最近，菲尔兹奖得主Timothy Gowers分享了他测试GPT-4o的经历&a…

阅读更多...

游戏推荐: 植物大战僵尸杂交版

游戏推荐: 植物大战僵尸杂交版

下载地址网上一搜就有. 安装就能玩. 2是显血. 4显示植物血, 5是加速. 都是左手主键盘的按钮, 再按是取消. 比较刺激: ps: 设置里面还能打开自动收集阳光和金币.

阅读更多...

视频融合共享平台LntonCVS统一视频接入平台智慧安防应用方案

视频融合共享平台LntonCVS统一视频接入平台智慧安防应用方案

安防视频监控平台LntonCVS是一款拥有强大拓展性和灵活部署能力的综合管理平台。它支持多种主流标准协议，包括国标GB28181、RTSP/Onvif、RTMP等，同时兼容各厂家的私有协议和SDK，如海康Ehome、海大宇等。LntonCVS不仅具备传统安防视频监控功能&…

阅读更多...

深入解析Tomcat：Java Web服务器（上）

深入解析Tomcat：Java Web服务器（上）

深入解析Tomcat：Java Web服务器（上） Apache Tomcat是一个开源的Java Web服务器和Servlet容器，用于运行Java Servlets和JavaServer Pages (JSP)。Tomcat在Java Web应用开发中扮演着重要角色。本文将详细介绍Tomcat的基本概念、安装…

阅读更多...

遥远星辰中的觉醒：超大质量黑洞的苏醒

遥远星辰中的觉醒：超大质量黑洞的苏醒

遥远星辰中的觉醒：超大质量黑洞的苏醒在浩渺无垠的宇宙中，星辰的闪烁仿佛是时间的涟漪，穿越亿万年的距离，抵达我们的眼眸。而在这片星辰大海的深处，一个惊人的现象正在悄然上演——距离地球3.6亿光年之遥的星系中&am…

阅读更多...

【C++】空指针访问成员函数

【C++】空指针访问成员函数

空指针访问成员函数 C中空指针也是可以调用成员函数的，但是也要注意有没有用到this指针如果用到this指针，需要加以判断保证代码的健壮性 class Animal { public:void fun1() {//正常的成员函数}void fun2() {if (this NULL) {return;//如果没有这个…

阅读更多...

最新文章