hadoop综合大作业

hadoop综合大作业

news/2025/4/21 23:55:40/文章来源:https://blog.csdn.net/weixin_30240349/article/details/99031522

Hadoop综合大作业要求：

1.用Hive对爬虫大作业产生的文本文件（或者英文词频统计下载的英文长篇小说）词频统计。

词频统计的截图如下：

上次我所使用的文章是一篇中文文章，所以这次我用了一篇英文文档来进行分词，大致的流程与上次的操作差不多。

这是启动hadoop的画面。

启动hive的画面

这是整篇英文文章读取出来后的结果。

2.用Hive对爬虫大作业产生的csv文件进行数据分析，写一篇博客描述你的分析过程和分析结果。

这个文件是之前爬虫得到的csv文件，由于数据量比较大，我就只截取了所有数据的前100条，在之后我就将这个文件传到了hadoop上面去，在我打算将它用hive新生成的文件显示出来的时候，结果显示的是乱码，如下图所示：

我在网上查阅了很多资料，可能是编码的问题，但是参照网上的那些改变编码的语句，结果还是与原来一样，不知道是因为文件在传至hadoop的过程中编码的问题还是hive新建表出现错误。最后我还是采用了与之前一样的方法，新建一个txt文档，把数据放进里面，传到hadoop上面，然后把数据显示出来。

新建一个txt文档。

将文本中的内容显示出来。

转载于:https://www.cnblogs.com/cairuiqi/p/9064157.html

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/570822.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Hadoop集群的kerberos认证

Hadoop集群的kerberos认证

文章转载自http://www.cnblogs.com/easycloud/p/3724437.html 转载主要用于个人学习备查。环境： OS 版本: Centos6.4 Kerberos版本: krb5-1.10.3 环境配置机器名 Ip地址功能安装模块 ganglia.localdomain 192.168.124.140 Kerberos server krb5-li…

阅读更多...

Oracle 表备份还原

Oracle 表备份还原

方法1： create table mdmuser20120801 as select * from mdmuser方法2：create table mdmuser20120801 as select * from mdmuser where 12;insert into mdmuser20120801 select * from mdmuser ;转载于:https://www.cnblogs.com/zhchsh/p/9087331.html

阅读更多...

HDFS文件导出本地合并为一个文件

HDFS文件导出本地合并为一个文件

HDFS受限于Block大小，大文件会分割成多个块分布在多个节点，导出本地的时候直接用： hadoop fs -get 命令会在本地创建一个目录存放多个块。要想合并为一个大文件可以这样： hadoop fs -getmerge hdfs:///user/nixm/news_rank1…

阅读更多...

MPI对道路车辆情况的Nagel-Schreckenberg 模型进行蒙特卡洛模拟

MPI对道路车辆情况的Nagel-Schreckenberg 模型进行蒙特卡洛模拟

平台Ubuntu 16.04，Linux下MPI环境的安装见链接：https://blog.csdn.net/lusongno1/article/details/61709460据 Nagel-Schreckenberg 模型，车辆的运动满足以下规则：1. 假设当前速度是 v ，和前一辆车的距离为d。2. 如…

阅读更多...

Kerberos:cannot get master principle

Kerberos:cannot get master principle

The server encountered an internal error that prevented it from fulfilling this request 问题背景： 集群新增节点，添加datanode、hawq segment、pxf服务后，原先连接Hbase在hawq 外表报错“获取不到master principle 舍弃中……”、“Th…

阅读更多...

BZOJ3223文艺平衡树——非旋转treap

BZOJ3223文艺平衡树——非旋转treap

此为平衡树系列第二道：文艺平衡树您需要写一种数据结构，来维护一个有序数列，其中需要提供以下操作： 翻转一个区间，例如原有序序列是5 4 3 2 1，翻转区间是[2,4]的话，结果是5 2 3 4 1 输入第一行…

阅读更多...

Linux centOS 硬盘分区挂载

Linux centOS 硬盘分区挂载

文章转载自：http://linux008.blog.51cto.com/2837805/548711 1、什么是分区？ 分区是将一个硬盘驱动器分成若干个逻辑驱动器，分区是把硬盘连续的区块当做一个独立的磁硬使用。分区表是一个硬盘分区的索引,分区的信息都会写进分区表。 2、为…

阅读更多...

Ambari删除服务报错之CSRF protection is turned on

Ambari删除服务报错之CSRF protection is turned on

Ambari安装组件失败后执行 curl 删除服务报错 CSRF protection is turned on X-Requested_By HTTP Header is required 解决方案： vi /etc/ambari-server/conf/ambari-properties增加 api.csrfPrevention.enabledfalse重启Ambari: ambari-server restart重新执行s…

阅读更多...

Android 中.aar文件生成方法与用法

Android 中.aar文件生成方法与用法

https://i.cnblogs.com/EditPosts.aspx?opt1 无论是用Eclipse还是用Android Studio做android开发，都会接触到jar包，全称应该是：Java Archive，即java归档文件。在用AS的过程中，你会发现有aar这么个东西，经查…

阅读更多...

Ambari实现HTTPS登陆

Ambari实现HTTPS登陆

关于Ambari的安全、访问控制在这里有非常详细的介绍。 http://pivotalhd.docs.pivotal.io/docs/security-guide-ambari-2.1.2.html 另外还可以参考这一篇 https://community.hortonworks.com/articles/39865/enabling-https-for-ambariserver-and-troubleshootin.html Amba…

阅读更多...

ffs, fls

ffs, fls

linux内核中的宏ffs(x) linux内核中ffs(x)宏是平台相关的宏,在arm平台,该宏定义在 arch/arm/include/asm/bitops.h #define ffs(x) ({ unsigned long __t (x); fls(__t & -__t); }) __t & -__t 等于找到__t 第一个为1的位(从低位开始),并把该位保留为1其余位清0. 例…

阅读更多...

PLSQL注册码

PLSQL注册码

Product Code: 4t46t6vydkvsxekkvf3fjnpzy5wbuhphqz serial Number: 601769 password: xs374ca

阅读更多...

【JAVA学习】09.创建BootstrapTale列表页

【JAVA学习】09.创建BootstrapTale列表页

【提要】只要JSON 返回了rows , total ,数据就会展示在列表【步骤】 1、页面添加Table标签用于装载数据 <table class"table" id"userTable"> <tr><td>请输入查询条件查询</td></tr> 　　</table> 2、页面初始化请求…

阅读更多...

安装ElasticSearch过程遇到的坑

安装ElasticSearch过程遇到的坑

采用默认安装时是可以成功安装的，但是只能在本机通过127.0.0.1:9200访问，修改: network.host: 为本机IP后，启动报错。 elasticsearch 5.3 安装过程中遇到了一些问题，这里简单记录一下。问题一：警告提示 [2016-11-…

阅读更多...

JS的介绍

JS的介绍

1.JS是什么 ？ JS是一门脚本语言，是一门解释性语言，是一种动态类型的语言，是一门基于对象的语言。脚本语言和和编译语言的区别：脚本语言不需要编译，直接执行。编译语言是需要把代码翻译成计算机所认识的二进…

阅读更多...

windows10上安装mysql

windows10上安装mysql

环境：windwos 10（1511） 64bit、mysql 5.7.14 一、下载mysql1. 在浏览器里打开mysql的官网http://www.mysql.com/2. 进入页面顶部的"Downloads"3. 打开页面底部的“Community(GPL) Downloads” 4. 在页面中间的位置找到我们windows上…

阅读更多...

后台长期运行进程的三种方式

后台长期运行进程的三种方式

入门： nohup command > /var/log/test.log 2>&1 & 优雅： screen方式，通过screen 命令创建的环境下运行的终端命令，其父进程不是sshd 登陆会话，而是screen,这样就可以避免用户退出进程消失的问题&…

阅读更多...

sql server 内存初探

sql server 内存初探

sql server 内存初探原文:sql server 内存初探一. 前言对于sql server 这个产品来说，内存这块是最重要的一个资源， 当我们新建一个会话，相同的sql语句查询第二次查询时间往往会比第一次快，特别是在sql统计或大量查询数据输出时&…

阅读更多...

hdfs查看目录大小文件大小

hdfs查看目录大小文件大小

1、hadoop fs -du /test 查看test子目录大小 2、hadoop fs -count -q /test

阅读更多...

使用TcpClient的例程

使用TcpClient的例程

例子1： ///假定一切工作正常 ///连接后发送一次消息，然后不停接受消息并且打印主要API说明 TcpClient clientnew TcpClient(); client.Connect("127.0.0.1",8888); NetworkStream streamclient.GetStream(); 发送： stream.Write(o…

阅读更多...

最新文章