Spark使用HanLP分词

news/2025/4/6 16:51:20/文章来源:https://datamining.blog.csdn.net/article/details/125652556

Spark使用HanLP分词

将HanLP的data(包含词典和模型)放到hdfs上，然后在项目配置文件hanlp.properties中配置root的路径，比如：root=hdfs://localhost:9000/tmp/

实现com.hankcs.hanlp.corpus.io.IIOAdapter接口

    public static class HadoopFileIoAdapter implements IIOAdapter {@Overridepublic InputStream open(String path) throws IOException {Configuration conf = new Configuration();FileSystem fs = FileSystem.get(URI.create(path), conf);return fs.open(new Path(path));}@Overridepublic OutputStream create(String path) throws IOException {Configuration conf = new Configuration();FileSystem fs = FileSystem.get(URI.create(path), conf);OutputStream out = fs.create(new Path(path));return out;}}

设置IoAdapter，创建分词器
```
private static Segment segment;static {HanLP.Config.IOAdapter = new HadoopFileIoAdapter();segment = new CRFSegment();
}
```
然后，就可以在Spark的操作中使用segment进行分词了。

原文链接：https://blog.csdn.net/l294265421/article/details/72932042

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/509503.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

获取类中的构造器

获取类中的构造器

需求:通过反射来获取某一个类的构造器: 1):获取该类的字节码对象. 2):从该字节码对象中去找需要获取的构造器. ------------------------------------------------------------------------ Class类获取构造器方法: Constructor类:表示类中构造器的类型,Constructor的实例…

阅读更多...

SparkStreaming Kafka 自动保存offset到zookeeper

SparkStreaming Kafka 自动保存offset到zookeeper

SparkStreaming Kafka 自动保存offset到zookeeper 场景 spark使用的是1.6，SparkStreaming1.6时候使用的kafka jar包为0.8的，消费时候不记录消费到的信息，导致重复消费，故手动保存到zookeeper，SparkStreaming2.1.1时使…

阅读更多...

数据结构实验之查找一：二叉排序树

数据结构实验之查找一：二叉排序树

题目描述对应给定的一个序列可以唯一确定一棵二叉排序树。然而，一棵给定的二叉排序树却可以由多种不同的序列得到。例如分别按照序列{3,1,4}和{3,4,1}插入初始为空的二叉排序树，都得到一样的结果。你的任务书对于输入的各种序列，判断它们是否…

阅读更多...

GCC常用参数详解

GCC常用参数详解

简介 gcc and g现在是gnu中最主要和最流行的c & c编译器 .gcc/g在执行编译工作的时候，总共需要以下几步: 1.预处理,生成.i的文件[预处理器cpp] 2.将预处理后的文件不转换成汇编语言,生成文件.s[编译器egcs] 3.有汇编变为目标代码(机器代码)生成.o的文件[汇编器a…

阅读更多...

使用反射调用构造器创建对象

使用反射调用构造器创建对象

构造器最大的作用:创建对象. 为什么使用反射创建对象,为什么不直接来new呢? 在框架中,提供给我们的都是字符串. ----------------------------------------------------------- 使用反射创建对象: 步骤: 1);找到构造器所在类的字节码对象. 2):获取构造器对象. 3):使用反射…

阅读更多...

数据结构实验之查找三：树的种类统计

数据结构实验之查找三：树的种类统计

题目描述随着卫星成像技术的应用，自然资源研究机构可以识别每一个棵树的种类。请编写程序帮助研究人员统计每种树的数量，计算每种树占总数的百分比。输入输入一组测试数据。数据的第1行给出一个正整数N (n < 100000)，N表示树的数量&…

阅读更多...

java中如何使用反射调用方法以及获得类中的属性

java中如何使用反射调用方法以及获得类中的属性

使用反射获取类中的方法: 1):获取方法所在类的字节码对象. 2):获取方法. ------------------------------------------------------------------------ Class类中常用方法: publicMethod[] getMethods():获取包括自身和继承过来的所有的public方法 publicMethod[] getDeclaredM…

阅读更多...

Maxwell读取MySQL数据

Maxwell读取MySQL数据

文章目录Maxwell 概述1.1 Maxwell 定义1.2 Maxwell工作原理1.2.1 MySQL主从复制过程1.2.2 Maxwell的工作原理1.2.3 **MySQL** **的** binlog1.3 Maxwell和Canal的对比Maxwell使用2.1 Maxwell安装2.1.1 安装地址2.1.2 安装部署2.1.3 MySQL环境准备2.1.4 初始化Maxwell元数据库2.…

阅读更多...

数据结构实验之查找二：平衡二叉树

数据结构实验之查找二：平衡二叉树

题目描述根据给定的输入序列建立一棵平衡二叉树，求出建立的平衡二叉树的树根。输入输入一组测试数据。数据的第1行给出一个正整数N(n < 20)，N表示输入序列的元素个数；第2行给出N个正整数，按数据给定顺序建立平衡二叉树。输…

阅读更多...

Linux-（C/C++）动态链接库生成以及使用（libxxx.so）

Linux-（C/C++）动态链接库生成以及使用（libxxx.so）

Linux中so文件为共享库，与windows下dll类似，不过实现要简单。 so可以供多个进程使用，不同进程调用同一个so文件，所使用so文件不同。 so文件源程序不需要main函数，有也不会被执行。下面通过一个简单例子，来…

阅读更多...

数据结构实验图论一：基于邻接矩阵的广度优先搜索遍历

数据结构实验图论一：基于邻接矩阵的广度优先搜索遍历

题目描述给定一个无向连通图，顶点编号从0到n-1，用广度优先搜索(BFS)遍历，输出从某个顶点出发的遍历序列。(同一个结点的同层邻接点，节点编号小的优先遍历）输入输入第一行为整数n（0< n <100&#xf…

阅读更多...

IO对象流(序列化和反序列化)

IO对象流(序列化和反序列化)

序列化和反序列化概念： 序列化: 把堆内存中的java对象数据，通过某种方式把对象存储到磁盘文件中或者传递给其他网络的节点（在网络上传输） 反序列化: 把磁盘文件中的对象数据或者网络节点上的对象数据，恢复成java对象的…

阅读更多...

我是怎么招聘程序员的

我是怎么招聘程序员的

http://coolshell.cn/articles/1870.html

阅读更多...

数据结构实验之图论二：基于邻接表的广度优先搜索遍历

数据结构实验之图论二：基于邻接表的广度优先搜索遍历

题目描述给定一个无向连通图，顶点编号从0到n-1，用广度优先搜索(BFS)遍历，输出从某个顶点出发的遍历序列。(同一个结点的同层邻接点，节点编号小的优先遍历）输入输入第一行为整数n（0< n <100&#xf…

阅读更多...

IO之打印流

IO之打印流

打印流,打印数据的,打印流只能是输出流: PrintStream: 字节打印流 PrintWriter: 字符打印流 -对于PrintWriter来说,当启用字段刷新之后, 调用println或者printf或者format方法,便会立马刷新操作. 如果没有开启自动刷新,则需要手动刷新或者当缓冲区满的时候,再自动刷新. 使…

阅读更多...

数据结构实验之查找四：二分查找

数据结构实验之查找四：二分查找

题目描述在一个给定的无重复元素的递增序列里，查找与给定关键字相同的元素，若存在则输出找到的位置,不存在输出-1。输入一组输入数据，输入数据第一行首先输入两个正整数n ( n < 10^6 )和m ( m < 10^4 )，n是数组中数据元…

阅读更多...

橡皮鸭程序调试法

橡皮鸭程序调试法

转自：http://write.blog.csdn.net/postedit 面，让我来为你介绍一个程序调试大法——“橡皮鸭程序调试法”，这个方法在调试界是很出众的，实施起来相当方便和简易，几乎可以随时随地地实验，几乎不需要借助任何…

阅读更多...

标准IO概述和操作

标准IO概述和操作

标准的IO: 标准的输入: 通过键盘录入数据给程序. 标准的输出: 在屏幕上显示程序数据. 在System类中有两个常量: InputStream in System.in; PrintStream out System.out; 标准流的重定向操作: 标准的输入: 通过键盘录入数据给程序. 重新指定输入的源不再是键盘,而是一个…

阅读更多...

十条不错的编程观点

十条不错的编程观点

转自：http://coolshell.cn/articles/2424.html 在Stack Overflow上有这样的一个贴子《What’s your most controversial programming opinion?》，翻译成中文就是“你认为最有争议的编程观点是什么？”，不过，在400多个主…

阅读更多...

数据结构上机实验之二分查找

数据结构上机实验之二分查找

题目描述在一个递增的序列里，查找元素是否存在，若存在输出YES,不存在输出NO.输入本题多组数据，首先输入一个数字n(n>100000)，然后输入n个数，数据保证数列递增，然后再输入一个查找数字。输出若存在输出…

阅读更多...

最新文章