Java实现汉字转拼音工具类的编写与应用

前言

在处理中文数据时,经常需要将汉字转换为拼音,无论是为了搜索优化、数据分析还是提升用户体验。本文将详细介绍如何编写一个实用的Java工具类来实现这一功能,并通过一个完整的示例来展示其使用方法。我们将使用Apache Commons Lang库中的PinyinHelper类来实现汉字到拼音的转换。

引入依赖

首先,确保你的项目中包含Apache Commons Lang库,如果你使用的是Maven,可以在pom.xml文件中添加如下依赖:

<dependency><groupId>org.apache.commons</groupId><artifactId>commons-lang3</artifactId><version>3.12.0</version> <!-- 请检查最新版本 -->
</dependency>
实现汉字转拼音工具类

下面是一个完善的ChineseCharacterUtil工具类,它提供了将汉字转换为全拼或首字母的功能。

import org.apache.commons.lang3.StringUtils;
import org.apache.commons.lang3.RegExUtils;
import net.sourceforge.pinyin4j.PinyinHelper;
import net.sourceforge.pinyin4j.format.HanyuPinyinCaseType;
import net.sourceforge.pinyin4j.format.HanyuPinyinOutputFormat;
import net.sourceforge.pinyin4j.format.HanyuPinyinToneType;public class ChineseCharacterUtil {/*** 将汉字转成拼音(取首字母或全拼)* @param hanzi 汉字字符串* @param full 是否全拼,true为全拼,false为首字母* @return 转换后的拼音字符串*/public static String convertHanziPinyin(String hanzi, boolean full) {if (StringUtils.isBlank(hanzi)) {return "";}HanyuPinyinOutputFormat outputFormat = new HanyuPinyinOutputFormat();outputFormat.setCaseType(HanyuPinyinCaseType.LOWERCASE);outputFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE);StringBuilder sb = new StringBuilder();for (char c : hanzi.toCharArray()) {if (isChinese(c)) {try {String[] pinyinArray = PinyinHelper.toHanyuPinyinStringArray(c, outputFormat);if (pinyinArray != null && pinyinArray.length > 0) {String pinyin = full ? pinyinArray[0] : pinyinArray[0].charAt(0) + "";sb.append(pinyin);}} catch (Exception e) {// 忽略转换异常,继续处理下一个字符}} else {sb.append(c);}}return sb.toString();}/*** 判断字符是否为中文字符* @param c 单个字符* @return true为中文字符,false为非中文字符*/private static boolean isChinese(char c) {Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);return ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS|| ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A|| ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B|| ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION;}// 注意:这里的PinyinHelper和HanyuPinyinOutputFormat来自pinyin4j库,不是Apache Commons Lang,需额外引入pinyin4j的依赖。
}
使用示例

假设你已经将上述代码保存为ChineseCharacterUtil.java并成功构建了项目,接下来是如何在你的程序中使用这个工具类:

public class Main {public static void main(String[] args) {String hanzi = "中华人民共和国";System.out.println("全拼: " + ChineseCharacterUtil.convertHanziPinyin(hanzi, true)); // 输出全拼System.out.println("首字母: " + ChineseCharacterUtil.convertHanziPinyin(hanzi, false)); // 输出首字母}
}

运行上述示例,你将看到如下输出:

全拼: zhonghuarenmingongheguo
首字母: zhhrmghg
总结

此工具类能够满足多数汉字转拼音的需求,尤其适合于处理搜索关键词匹配、姓名处理等场景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/875088.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

缓慢变化维

缓慢变化维 缓慢变化维&#xff08;Slowly Changing Dimensions&#xff0c;简称SCD&#xff09;是数据仓库中的一个重要概念&#xff0c;用于处理维度表中数据随时间发生的变化。以下是一个具体的例子来描述缓慢变化维&#xff1a; 假设我们有一个销售数据仓库&#xff0c;其…

AWS全服务历史年表:发布日期、GA和服务概述一览(四)

我一直在尝试从各种角度撰写关于Amazon Web Services&#xff08;AWS&#xff09;的信息和魅力。由于我喜欢技术历史&#xff0c;这次我总结了AWS服务发布的历史年表。 虽然AWS官方也通过“Whats New”发布了官方公告&#xff0c;但我一直希望能有一篇文章将公告日期、GA日期&…

python库(14):Arrow库简化时间处理

1 Arrow简介 Arrow 是一个被称为程序员的时间处理利器的 Python 库。 从诞生起&#xff0c;它就是为了填补 Python 的 datetime 类型的功能空白而生的。为程序员提供了一种更简单、更直观的方式来处理日期和时间。 2 安装Arrow库 pip install arrow -i https://pypi.tuna.ts…

什么是设备运维管理系统?有什么作用?(6款设备运维管理系统推荐)

一、什么是设备运维管理系统&#xff1f; 设备运维管理系统是一种集成了监控、管理、维护和优化设备性能的软件平台。它旨在通过自动化的手段&#xff0c;提高设备运行的可靠性和效率&#xff0c;降低运维成本&#xff0c;并优化资源利用。 设备运维管理系统能够实时监控设备…

【1】Python机器学习之基础概念

1、什么是机器学习 最早的机器学习应用——垃圾邮件分辨 传统的计算机解决问题思路&#xff1a; 编写规则&#xff0c;定义“垃圾邮件”&#xff0c;让计算机执行对于很多问题&#xff0c;规则很难定义规则不断变化 机器学习在图像识别领域的重要应用&#xff1a; 人脸识别…

带您详细了解安全漏洞的产生和防护

什么是漏洞&#xff1f; 漏洞是 IT、网络、云、Web 或移动应用程序系统中的弱点或缺陷&#xff0c;可能使其容易受到成功的外部攻击。攻击者经常试图寻找网络安全中的各种类型的漏洞来组合和利用系统。 一些最常见的漏洞&#xff1a; 1.SQL注入 注入诸如 SQL 查询之类的小代…

c# Math.Round()四舍五入取整数

可以使用Math.Round()方法进行四舍五入取整数的操作。 以下是使用Math.Round()方法的实现方法&#xff1a; 将浮点数直接作为参数传递给Math.Round()方法&#xff0c;并指定要保留的小数位数。此方法将返回最接近的整数值。 double number 3.89; int roundedNumber (int)Mat…

react-scripts 这个包的作用是什么

react-scripts 是 Create React App 项目中的一个核心包&#xff0c;它的主要作用包括: 封装和简化项目配置。react-scripts 封装了 Webpack、Babel、ESLint 等工具的配置&#xff0c;使开发者无需手动配置这些复杂的构建工具[1][3]. 提供开发和构建脚本。它包含了 start、bui…

milvus的批量向量搜索

批量向量搜索允许在单个请求中进行多个向量相似性搜索。这种类型的搜索非常适合需要为一组查询向量查找相似向量的场景&#xff0c;可显著减少所需的时间和计算资源。 即:一次查询多个向量&#xff0c;吞吐。 系统会并行处理这些向量&#xff0c;为每个查询向量返回一个单独的…

旋转目标检测:FCOS: Fully Convolutional One-Stage Object Detection【方法解读】

FCOS: 全卷积单阶段目标检测 我们提出了一种全卷积单阶段目标检测器(FCOS),以逐像素预测的方式解决目标检测问题,类似于语义分割。目前几乎所有的最先进目标检测器,如RetinaNet、SSD、YOLOv3和Faster R-CNN,都依赖于预定义的锚框。相反,我们提出的FCOS检测器是无锚框的…

静态解析activiti文本,不入库操作流程

说明&#xff1a; activiti本身状态存库&#xff0c;导致效率太低&#xff0c;把中间状态封装成一个载荷类&#xff0c;返回给上游&#xff0c;下次请求时给带着载荷类即可。 1.pom依赖 <dependency><groupId>net.sf.json-lib</groupId><artifactId>js…

BUU [PASECA2019]honey_shop

BUU [PASECA2019]honey_shop 技术栈&#xff1a;任意文件读取、session伪造 开启靶机&#xff0c;我有1336金币&#xff0c;买flag需要1337金币 点击上面的大图&#xff0c;会直接下载图片 抓包看看&#xff0c;感觉是任意文件读取 修改下路径读一下 读到了session密钥是Kv8i…

Springboot validated JSR303校验

1.导入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-validation</artifactId></dependency> 2.测试类 package com.jmj.gulimall.product.testC;import lombok.Data;import javax.val…

C++《类和对象》(中)

一、 类的默认成员函数介绍二、构造函数 构造函数名与类同名内置类型与自定义类型析构函数拷贝构造函数 C《类和对象》(中) 一、 类的默认成员函数介绍 默认成员函数就是⽤⼾没有显式实现&#xff0c;编译器会⾃动⽣成的成员函数称为默认成员函数。 那么我们主要学习的是1&…

Linux环境docker部署Firefox结合内网穿透远程使用浏览器测试

文章目录 前言1. 部署Firefox2. 本地访问Firefox3. Linux安装Cpolar4. 配置Firefox公网地址5. 远程访问Firefox6. 固定Firefox公网地址7. 固定地址访问Firefox 前言 本次实践部署环境为本地Linux环境&#xff0c;使用Docker部署Firefox浏览器后&#xff0c;并结合cpolar内网穿…

ambari集群NameNode启动失败(不同节点journalnode中的edit数据不一致导致,一般在集群节点宕机后出现)

ambari集群NameNode启动失败(journalnode数据不一致导致) 问题现象: Ambari集群服务器因为机房断电,导致有个别节点未正常启动,过了两天才发现该问题,去机房将问题服务器启动后,重启Ambari集群服务报错,NameNode无法启动,由于该问题之前已经遇到过,故此进行记录 问题原因: …

手动搭建微型计算机(涉及:CPU、内存、寄存器等)

目录 微型计算机基础元件及作用CPU地址总线数据总线 内存地址总线数据总线内存大小的计算 寄存器先将Z80CPU与TC5517内存相连参考文章 微型计算机基础元件及作用 CPU、内存、I/O CPU 包含地址总线引脚和数据总线引脚。 以Z80CPU为例&#xff1a; 地址总线 地址总线引脚…

Apache Bigtop 正式支持 openEuler,共创大数据新生态

近日&#xff0c;在OpenAtom openEuler&#xff08;简称"openEuler"&#xff09;BigData SIG与Linaro的携手努力下&#xff0c;** Apache Bigtop于2024年7月8日发布的3.3.0新版本中&#xff0c;正式宣告了对openEuler操作系统的原生支持**。这一里程碑式的进展&#…

[微信小程序] css 解决纯数字或字母不自动换行的问题、控制文字行数

效果 css 代码 word-break: break-all; overflow: hidden; text-overflow: ellipsis; display: -webkit-box; -webkit-line-clamp: 2; -webkit-box-orient: vertical;解释 word-break: break-all; 作用&#xff1a;这个属性允许在单词内部进行换行&#xff0c;即使单词很长也…

Mysql - 索引

目录 一、存储引擎 二、索引 索引结构 索引分类 索引语法 联合索引 前缀索引 索引使用规则 最左前缀法则 范围查询使索引失效 字段做运算操作索引失效 字符串字段不加单引号索引失效 字段做前模糊查询索引失效 or连接条件索引失效 数据发布情况索引失效 指定使用…