Hanlp的安装和配置

Hanlp简介

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。
HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
HanLP 提供下列功能:

  • 中文分词
  • 最短路分词
  • N-最短路分词
  • CRF分词索引分词
  • 极速词典分词
  • 用户自定义词典
  • 词性标注命名实体识别
  • 中国人名识别
  • 音译人名识别
  • 日本人名识别
  • 地名识别
  • 实体机构名识别
  • 关键词提取
  • TextRank关键词提取
  • 自动摘要
  • TextRank自动摘要
  • 短语提取
  • 基于互信息和左右信息熵的短语提取拼音转换
  • 多音字声母韵母
  • 声调简繁转换
  • 繁体中文分词
  • 简繁分歧词
  • 文本推荐
  • 语义推荐
  • 拼音推荐
  • 字词推荐
  • 依存句法分析
  • MaxEnt依存句法分析
  • CRF依存句法分析
  • 语料库工具
  • 分词语料预处理
    等一些列自然语言处理功能

下载与配置

方式一
Maven为了方便用户,特提供内置了数据包的Portable版,只需在pom.xml加入:

<dependency><groupId>com.hankcs</groupId><artifactId>hanlp</artifactId><version>portable-1.7.8</version>
</dependency>

零配置,即可使用基本功能(除由字构词、依存句法分析外的全部功能)。如果用户有自定义的需求,可以参考方式二,使用hanlp.properties进行配置(Portable版同样支持hanlp.properties)。

方式二
下载jar、data、hanlp.propertiesHanLP将数据与程序分离,给予用户自定义的自由。
1、下载:data.zip下载后解压到任意目录,接下来通过配置文件告诉HanLP数据包的位置。HanLP中的数据分为词典和模型,其中词典是词法分析必需的,模型是句法分析必需的。data

├─dictionary
└─model
用户可以自行增删替换,如果不需要句法分析等功能的话,随时可以删除model文件夹。

  • 模型跟词典没有绝对的区别,隐马模型被做成人人都可以编辑的词典形式,不代表它不是模型。
  • GitHub代码库中已经包含了data.zip中的词典,直接编译运行自动缓存即可;模型则需要额外下载。

2、下载jar和配置文件:hanlp-release.zip配置文件的作用是告诉HanLP数据包的位置,只需修改第一行root=D:/JavaProjects/HanLP/为data的父目录即可,比如data目录是/Users/hankcs/Documents/data,那么root=/Users/hankcs/Documents/ 。最后将hanlp.properties放入classpath即可,对于多数项目,都可以放到src或resources目录下,编译时IDE会自动将其复制到classpath中。除了配置文件外,还可以使用环境变量HANLP_ROOT来设置root。安卓项目请参考demo。如果放置不当,HanLP会提示当前环境下的合适路径,并且尝试从项目根目录读取数据集。

一般方法:
步骤一:
通过方式二获取Hanlp的数据包和jar包并解压;其中,数据包放在任何位置都可以,我们会通过修改配置文件来对数据包进行定位;

数据包和jar包

步骤二:
以eclipse为例,说明如何在java项目中使用Hanlp;

  1. 创建一个新的java项目,将解压后的jar包导入到项目;在这里插入图片描述
    在这里插入图片描述
  2. 使用Build Path将jar包引入;
    在这里插入图片描述
  3. 修改配置文件hanlp.properities,定位数据包;修改方式见上方的方式2;
    在这里插入图片描述
  4. 将配置文件导入到项目文件的bin目录下,测试是否能够正常使用Hanlp;
    测试

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/484399.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python-主成分分析-降维-PCA

PCA算法及其应用 主成分分析(PCA) 主城成分分析&#xff08;PCA&#xff09;&#xff1a;常见的降维方法&#xff0c;用于高维数据集的探索与可视化&#xff0c;还可以用作数据压缩和预处理。 PCA 可以把具有相关性的高维变量合成为线性无关的低维变量&#xff0c;成为主成分&…

5个基本概念,从统计学到机器学习

来源&#xff1a;CSDN作者&#xff1a;George Seif本文讲述了数据分析师应当了解的五个统计基本概念&#xff1a;统计特征、概率分布、降维、过采样/欠采样、贝叶斯统计方法。从高的角度来看&#xff0c;统计学是一种利用数学理论来进行数据分析的技术。象柱状图这种基本的可视…

Ubuntu安装与配置(简要)

学校的实验课任务&#xff0c;一看没有写过Ubuntu的安装&#xff0c;现在顺便上传上来&#xff1b;

python-非负矩阵分解-NMF

非负矩阵分解 非负矩阵分解是矩阵中所有元素均为非负数约束条件下的矩阵分解&#xff0c;其基本思想&#xff1a;给定一个非负矩阵V&#xff0c;NMF能够找到一个非负矩阵W和一个非负矩阵H&#xff0c;使得矩阵W和矩阵H的乘积近似等于矩阵V中的值。 矩阵&#xff1a;被称为基础…

OpenAI与GitHub联手推出AI代码生成工具,比GPT-3更强大

来源&#xff1a;AI科技评论作者&#xff1a;琰琰、青暮比GPT-3更强大&#xff01;昨日&#xff0c;微软与OpenAI共同推出了一款AI编程工具GitHub Copilot&#xff0c;这款工具基于GitHub及其他网站的源代码&#xff0c;可根据上文提示为程序员自动编写下文代码&#xff01;Git…

Hanlp之理解用户自定义词典(java版本)

首先说明&#xff0c;由于本人水平有限&#xff0c;文章纰漏以及不妥之处还请指出&#xff0c;不胜感激&#xff1b; 理解hanlp中用户自定义词典&#xff08;java&#xff09; 什么是hanlp用户自定义字典&#xff1f;为什么要有用户自定义词典&#xff1f; 在Hanlp分词中&…

python-聚类图像分割

K-Means聚类图像分割 图像分割&#xff1a; 利用图像的灰度&#xff0c;颜色&#xff0c;纹理&#xff0c;形状等特征&#xff0c;把图像分成若干个互不重叠的区域&#xff0c;并使这些特征在同一区域内呈现相似性&#xff0c;在不同区域之间存在明显的差异性。然后&#xff0c…

科学家揭秘大脑靠“旋转”区分过去和现在,还给了个AI架构设计新思路 | Nature子刊...

来源&#xff1a;量子位 过去和现在的边界&#xff0c;到底在哪里&#xff1f;人类&#xff0c;又是如何在时间混沌中区分出过往与当下的&#xff1f;注意&#xff0c;这不是一个哲学问题。&#xff08;手动狗头&#xff09;而是科学家们的最新研究。两个普林斯顿的神经学家&am…

Hanlp中自定义词典的配置、引用以及问题解决

文章目录如何阅读本文&#xff1f;Hanlp用户自定义词典引用简介操作步骤环境创建编辑词典文件将用户自定义词典路径加入配置文件删除缓存文件如何阅读本文&#xff1f; 首先我们对Hanlp用户词典进行简介&#xff0c;推荐首先阅读链接文章&#xff0c;它是本文的第一来源&#…

有监督学习

有监督学习 利用一组带有标签的数据&#xff0c;学习从输入到输出的映射&#xff0c;然后将这种映射关系应用到未知数据上&#xff0c;达到分类或回归的目的。 分类&#xff1a;当输出为离散的&#xff0c;学习任务为分类任务。回归&#xff1a;当输出为连续的&#xff0c;学习…

深度学习助力网络科学:基于深度学习的社区发现最新综述

来源&#xff1a;AMiner科技论文题目&#xff1a;A Comprehensive Survey on Community Detection with Deep Learning论文网址&#xff1a;https://arxiv.org/pdf/2105.12584.pdf近日&#xff0c;澳大利亚麦考瑞大学计算机学院人工智能与数据科学实验室联合中科院数学与系统科…

Neo4j 图创建1 以BiliBili粉丝UP主之间的关系为例

基本关系图如下&#xff0c;不给出细节 其中所有粉丝名为杜撰&#xff0c;如有雷同纯属巧合 UP主对应关系为方便建库进行了主观处理&#xff0c;不代表真实情况 无商业用途&#xff0c;学习使用

CentOS7开放端口号

查看所有开放的端口号 firewall-cmd --zonepublic --list-ports 或者 firewall-cmd --permanent --list-ports&#xff08;--permanent表示永久生效&#xff09; 查询指定端口号是否开发 firewall-cmd --permanent --query-port8080/tcp 删除一个已经开放的端口号 firewall-cm…

Hinton,Lecun和Bengio三巨头联手再发万字长文:深度学习的昨天、今天和明天

来源&#xff1a;ACM编辑&#xff1a;Priscilla Emil2018年&#xff0c;ACM&#xff08;国际计算机学会&#xff09;决定将计算机领域的最高奖项图灵奖颁给Yoshua Bengio、Yann LeCun 和 Geoffrey Hinton&#xff0c;以表彰他们在计算机深度学习领域的贡献。这也是图灵奖第三次…

LR为什么用极大似然估计,损失函数为什么是log损失函数(交叉熵)

首先&#xff0c;逻辑回归是一个概率模型&#xff0c;不管x取什么值&#xff0c;最后模型的输出也是固定在&#xff08;0,1&#xff09;之间&#xff0c;这样就可以代表x取某个值时y是1的概率 这里边的参数就是θ&#xff0c;我们估计参数的时候常用的就是极大似然估计&#xf…

LSTM之父撰文,纪念这位图灵奖遗珠、“AI理论之父”

原文&#xff1a;1931: Kurt Gdel, founder of theoretical computer science, shows limits of math, logic, computing, and artificial intelligence作者&#xff1a;Jrgen Schmidhuber &#xff08;知名 AI 学者&#xff0c;LSTM 之父&#xff09;译者&#xff1a;刘媛媛摘…

Maven简述以及配置使用

目前的技术存在的问题&#xff08;引入Maven的重要性&#xff09; 一个项目就是一个工程&#xff1b; 如果项目非常庞大&#xff0c;就不再适合使用package来划分模块&#xff1b;最好是每一个模块对应一个工程&#xff0c;利于分工协作&#xff1b; 借助于Maven可以将一个项目…

依图科技终止上市审核:冲击科创板「AI第一股」失败

来源&#xff1a;机器之心AI 创业公司在国内市场 IPO 真就这么困难&#xff1f;7 月 2 日晚上交所消息&#xff0c;决定终止对依图科技首次公开发行存托凭证并在科创板上市的审核。依图的上市申请是于 2020 年 11 月 4 日被上交所依法受理的&#xff0c;其股票预计采用 CDR&…

神经网络-前向传播

前向传播神经网络搭建 1.tensorflow库搭建神经网络 参数&#xff1a;线上的权重W&#xff0c;用变量表示&#xff0c;随机给初值。相关介绍 tf.truncated_normal():去掉过大偏离点的正太分布tf.random_normal()正太分布tf.random_uniform():平均分布tf.zeros:全零数组&#x…