android 判断是否是标点符号_Java 中文字符判断 中文标点符号判断

Java Character 实现Unicode字符集介绍  CJK中文字符和中文标点判断

主要内容:

1. Java Character类介绍;

2. Unicode 简介及 UnicodeBlock 与 UnicodeScript区别和联系

3. 如何判断汉字及中文标点符号

做中文信息处理,经常会遇到如何判断一个字是否是中文,或者是否是中文的标点符号等。

在Java中,主要使用 Character类处理字符有关功能,而JDK 1.7中Character是按照Unicode 6.0版本实现的,所以这个要先学习下常用的 Unicode编码。

Character 类中有3个静态内部类,

Modifier and Typehttp://http://www.cnblogs.com/zztt/admin/EditPosts.aspx?opt=1www.cnblogs.com/zztt/admin/EditPosts.aspx?opt=1Class and Description

static class

Instances of this class represent particular subsets of the Unicode character set.

static class

A family of character subsets representing the character blocks in the Unicode specification.

static class

A family of character subsets representing the character scripts defined in the Unicode Standard Annex #24: Script Names.

其中的UnicodeBlock 和 UnicodeScript类可以帮助我们判断字符类型,

UnicodeBlock是Unicode标准协会组织unicode码的一个基本单位,实际上一个 UnicodeBlock代表一片连续的Unicode号码段,UnicodeBlock之间不重叠。例如,通常我们利用Unicode编码是否在 0x4E00–0x9FCC 来判断某字符是否为汉字,就是因为,有个UnicodeBlock 专门划分为存储汉字 (准确的说是 CJK统一汉字),这个UnicodeBlock叫做 CJK Unified Ideographs,总共定义了 74,617 个汉字。

当然还有其他很多UnicodeBlock,例如,对于汉字还有4个扩展 UnicodeBlock,CJK Unified Ideographs Extension A, B, C, D 分别都扩展了一些我们平时见都没见过的汉字(如果不是专门的古籍数字化,Unicode字符集中的汉字普通交流够了)

Unicode中一种Script通常就是一个字符或者其他书写符号的集合,代表着一种或多种writing systems (这里暂且翻译为文书类型,文书类型细分可以分成不同语言)。有些Script仅支持一种文字类型,有些可以支持多种,例如 Latin Script 支持 supports English, French, German, Italian, Vietnamese, Latin 等等,具体可见wikipedia,

http://en.wikipedia.org/wiki/Scripts_in_Unicode

UnicodeBlock 与 UnicodeScript 关系:

所以UnicodeScript 是从语言书写规则层次对Unicode字符的分类,这是用使用角度划分,而UnicodeBlock是从硬的编码角度划分。

1. UnicodeBlock是简单的数值范围 (其中可能有些Block中会有一些尚未分配字符的“空号”)。

2. 在一个UnicodeScript中的字符可能分散在多个UnicodeBlock中;

3. 一个UnicodeBlock中的字符可能会被划进多个UnicodeScript中。

另外需要注意的是UnicodeScript实现是在Java 7中新引入的。

具体在编写程序中,可以游2种办法,一是使用 UnicodeBlock,请见代码:

//使用UnicodeBlock方法判断

public boolean isChineseByBlock(charc) {

Character.UnicodeBlock ub=Character.UnicodeBlock.of(c);if (ub ==Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS|| ub ==Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A|| ub ==Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B|| ub ==Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C|| ub ==Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D|| ub ==Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS|| ub ==Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT) {return true;

}else{return false;

}

}

或者如果使用JDK1.7,那么UnicodeScript方法会更方便,因为UnicodeScript.HAN 包括了上面所列的5个UnicodeBlock:

//使用UnicodeScript方法判断

public boolean isChineseByScript(charc) {

Character.UnicodeScript sc=Character.UnicodeScript.of(c);if (sc ==Character.UnicodeScript.HAN) {return true;

}return false;

}

类似的,扩展开去还可以判别中文标点符号。

因为中文的标点符号主要存在于以下5个UnicodeBlock中,

U2000-General Punctuation (百分号,千分号,单引号,双引号等)

U3000-CJK Symbols and Punctuation ( 顿号,句号,书名号,〸,〹,〺 等;PS: 后面三个字符你知道什么意思吗? : )    )

UFF00-Halfwidth and Fullwidth Forms ( 大于,小于,等于,括号,感叹号,加,减,冒号,分号等等)

UFE30-CJK Compatibility Forms  (主要是给竖写方式使用的括号,以及间断线﹉,波浪线﹌等)

UFE10-Vertical Forms (主要是一些竖着写的标点符号,    等等)

//根据UnicodeBlock方法判断中文标点符号

public boolean isChinesePunctuation(charc) {

Character.UnicodeBlock ub=Character.UnicodeBlock.of(c);if (ub ==Character.UnicodeBlock.GENERAL_PUNCTUATION|| ub ==Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION|| ub ==Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS|| ub ==Character.UnicodeBlock.CJK_COMPATIBILITY_FORMS|| ub ==Character.UnicodeBlock.VERTICAL_FORMS) {return true;

}else{return false;

}

}

最后上测试代码:

importjava.util.regex.Pattern;/*** author: Tong

* Date: 11/16/13

* Time: 10:42 PM*/

public classCharClassifier {public static voidmain(String[] args) {

CharClassifier classifier= newCharClassifier();

String[] strings= new String[]{"Hello", "你好", "㐀㐂㐄", "にほんご", "조선어",",.?!@#$%^&()", ",。?!@#¥%……&()"};for (int i = 0; i < strings.length; i++) {

String str=strings[i];

System.out.println("原字符串为:" +str);char[] chars =str.toCharArray();if (i < 5) {

System.out.println("使用0x4E00-0x9FCC范围判断字符是否为汉字:");for (charaChar : chars) {

System.out.println(aChar+ ":" + (classifier.isChineseByRange(String.valueOf(aChar)) ? "YES" : "NO"));

}

System.out.println("使用UnicodeBlock方法判断字符是否为汉字:");for (charaChar : chars) {

System.out.println(aChar+ ":" + (classifier.isChineseByBlock(aChar) ? "YES" : "NO"));

}

System.out.println("使用UnicodeScript方法判断字符是否为汉字:");for (charaChar : chars) {

System.out.println(aChar+ ":" + (classifier.isChineseByScript(aChar) ? "YES" : "NO"));

}

}else{

System.out.println("判断是否为中文符号:");for (charaChar : chars) {

System.out.println(aChar+ ":" + (classifier.isChinesePunctuation(aChar) ? "YES" : "NO"));

}

}

}

}//使用UnicodeBlock方法判断

public boolean isChineseByBlock(charc) {

Character.UnicodeBlock ub=Character.UnicodeBlock.of(c);if (ub ==Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS|| ub ==Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A|| ub ==Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B|| ub ==Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C|| ub ==Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D|| ub ==Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS|| ub ==Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT) {return true;

}else{return false;

}

}//使用UnicodeScript方法判断

public boolean isChineseByScript(charc) {

Character.UnicodeScript sc=Character.UnicodeScript.of(c);if (sc ==Character.UnicodeScript.HAN) {return true;

}return false;

}//根据UnicodeBlock方法判断中文标点符号

public boolean isChinesePunctuation(charc) {

Character.UnicodeBlock ub=Character.UnicodeBlock.of(c);if (ub ==Character.UnicodeBlock.GENERAL_PUNCTUATION|| ub ==Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION|| ub ==Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS|| ub ==Character.UnicodeBlock.CJK_COMPATIBILITY_FORMS|| ub ==Character.UnicodeBlock.VERTICAL_FORMS) {return true;

}else{return false;

}

}//使用Unicode编码范围来判断汉字;这个方法不准确,因为还有很多汉字不在这个范围之内

public booleanisChineseByRange(String str) {if (str == null) {return false;

}

Pattern pattern= Pattern.compile("[\\u4E00-\\u9FCC]+");returnpattern.matcher(str.trim()).find();

}

}

程序输出:

原字符串为:Hello

使用0x4E00-0x9FCC范围判断字符是否为汉字:

H:NO

e:NO

l:NO

l:NO

o:NO

使用UnicodeBlock方法判断字符是否为汉字:

H:NO

e:NO

l:NO

l:NO

o:NO

使用UnicodeScript方法判断字符是否为汉字:

H:NO

e:NO

l:NO

l:NO

o:NO

原字符串为:你好

使用0x4E00-0x9FCC范围判断字符是否为汉字:

你:YES

好:YES

使用UnicodeBlock方法判断字符是否为汉字:

你:YES

好:YES

使用UnicodeScript方法判断字符是否为汉字:

你:YES

好:YES

原字符串为:㐀㐂㐄

使用0x4E00-0x9FCC范围判断字符是否为汉字:

㐀:NO

㐂:NO

㐄:NO

使用UnicodeBlock方法判断字符是否为汉字:

㐀:YES

㐂:YES

㐄:YES

使用UnicodeScript方法判断字符是否为汉字:

㐀:YES

㐂:YES

㐄:YES

原字符串为:にほんご

使用0x4E00-0x9FCC范围判断字符是否为汉字:

に:NO

ほ:NO

ん:NO

ご:NO

使用UnicodeBlock方法判断字符是否为汉字:

に:NO

ほ:NO

ん:NO

ご:NO

使用UnicodeScript方法判断字符是否为汉字:

に:NO

ほ:NO

ん:NO

ご:NO

原字符串为:조선어

使用0x4E00-0x9FCC范围判断字符是否为汉字:

조:NO

선:NO

어:NO

使用UnicodeBlock方法判断字符是否为汉字:

조:NO

선:NO

어:NO

使用UnicodeScript方法判断字符是否为汉字:

조:NO

선:NO

어:NO

原字符串为:,.?!@#$%^&()

判断是否为中文符号:

,:NO

.:NO?:NO!:NO

@:NO

#:NO

$:NO%:NO^:NO&:NO

(:NO

):NO

原字符串为:,。?!@#¥%……&()

判断是否为中文符号:

,:YES

。:YES

?:YES

!:YES

@:YES

#:YES

¥:YES

%:YES

…:YES

…:YES

&:YES

(:YES

):YES

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/367435.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小程序tabbar这套方案全搞定!

关于微信小程序的tarbar&#xff0c;相信你们都不会陌生 在实现小程序微信原装的tabbar却比较呆板&#xff0c;不够精致&#xff0c;往往不符合自己的要求 这个时候怎么办呢 这套方案接着&#xff01; 先简单的来说一下主要思想:自定义字体图标组件以及tabbar组件&#xff0c…

linux服务器用哪个面板好,Linux服务器管理面板哪家比较好用?

Linux服务器管理面板哪家比较好用&#xff1f;发布时间&#xff1a;2020-07-21 06:08:33来源&#xff1a;51CTO阅读&#xff1a;261作者&#xff1a;BirdCloud_1022现在&#xff0c;越来越多的站长朋友都会选择服务器用来搭建网站&#xff0c;但是势必需要我们自己搭建WEB环境&…

spring boot(一)入门

目录 spring boot(一)入门一、简介1、微服务的概念2、什么是spring boot3、快速入门4.springboot的快捷部署spring boot(一)入门 一、简介 1、微服务的概念 说起spring boot&#xff0c;我们不得不说一下“微服务”一词的兴起&#xff0c;微服务一词最早起源于2014年&#xff0…

使用Couchbase分页

如果对Couchbase集群进行查询时必须处理大量文档&#xff0c;则使用分页来逐页获取行很重要。 您可以在“ 分页 ”一章的文档中找到一些信息&#xff0c;但是我想在本文中提供更多详细信息和示例代码。 在此示例中&#xff0c;我将基于啤酒样本数据集创建一个简单的视图&#…

android 常用机型尺寸_不同手机/设备和操作系统版本上的Android堆大小

素胚勾勒不出你不仅手机生产商&#xff0c;而且任何创建Android操作系统版本的人&#xff0c;都可以根据设备的特定需求&#xff0c;指定允许的最大堆大小。一些Android根&#xff0c;如CyanogenMod&#xff0c;甚至允许用户自己选择堆大小作为设置。可以使用该方法检测允许的最…

vue移动端项目缓存问题实践

最近在做一个vue移动端项目&#xff0c;被缓存问题搞得头都大了&#xff0c;积累了一些经验&#xff0c;特此记录总结下&#xff0c;权当是最近项目问题的一个回顾吧&#xff01; 先描述下问题场景&#xff1a;A页面->B页面->C页面。假设A页面是列表页面&#xff0c;B页…

pdf解析与结构化提取

PDF解析与结构化提取 PDF解析 对于PDF文档&#xff0c;我们选择用PDFMiner对其进行解析&#xff0c;得到文本。 PDFMiner PDFMiner使用了一种称作lazy parsing的策略&#xff0c;只在需要的时候才去解析&#xff0c;以减少时间和内存的使用。要解析PDF至少需要两个类&#xff1…

Linux usb bus日志如何打开,从linux usb bus节点来认识usb linux usb认识

首先从linux dmesg来认识usb:<6>[ 19.610046] msm_hsic_host msm_hsic_host: Qualcomm EHCI Host Controller using HSIC<6>[ 19.620391] msm_hsic_host msm_hsic_host: new USB bus registered, assigned bus number 1<6>[ 19.659942] msm_hsic_host …

Spring面试问题

还可以查看我们最新的文章69Spring面试问答-最终名单 。 1&#xff09;什么是春天&#xff1f; 回答&#xff1a; Spring是控件和面向方面的容器框架的轻量级转换。 2&#xff09;解释春天&#xff1f; 回答&#xff1a; 轻巧&#xff1a;在尺寸和透明度方面&#xff0c; S…

java 字符串转utc时间_JAVA 本地时间字符串转UTC时间字符串

本来想偷懒百度一个时间字符串转UTC的代码&#xff0c;但发现没有一个能用&#xff0c;写得还复杂得要死&#xff0c;没办法还是自己撸一个。/*** UTC时间字符串转本地时间字符串* 我的本地getDateTimeInstance()是格式&#xff1a;yyyy-MM-dd HH:mm:ss* param str UTC时间字符…

前端解读面向切面编程(AOP)

前言 面向对象(OOP)作为经典的设计范式&#xff0c;对于我们来说可谓无人不知&#xff0c;还记得我们入行起始时那句经典的总结吗-万事万物皆对象。 是的&#xff0c;基于OOP思想封装、继承、多态的特点&#xff0c;我们会自然而然的遵循模块化、组件化的思维来设计开发应用&a…

windows和linux允许分片,请问hadoop的hdfs文件系统和本地windows文件系统或linux文件系统是什么关系啊,谢谢...

虚拟文件系统 Virtual File Systems(VFS)Linux 是近年来发展起来的一种新型的操作系统&#xff0c;其最重要的特征之一就是支持多种文件系统&#xff0c;使其更加灵活&#xff0c;从而与许多其它的操作系统共存。Linux支持ext&#xff0c;ext2&#xff0c;xia&#xff0c;minix…

201771010120 苏浪浪 《面向对象程序设计(java)》第二周学习总结

理论知识总结 第三章Java基本程序设计结构 1、基本知识&#xff1a;&#xff08;1&#xff09;标识符&#xff1a;是由字母、下划线、美元符号和数字组成&#xff0c;且第一个符号不能为数字。&#xff08;2&#xff09;关键字&#xff1a;剧啊语言中被赋予特定意义的一些单词。…

Apache Camel简介

Apache Camel是著名的企业集成模式的开源实现。 Camel是一个路由和中介引擎&#xff0c;可以帮助开发人员以各种领域特定语言&#xff08;DSL&#xff09;&#xff08;例如Java&#xff0c;Spring / XML&#xff0c;scala等&#xff09;创建路由和中介规则。 骆驼用途广泛 Cam…

《架构即未来》读后感

前言 有将近2年没有写文章了&#xff0c;首先是不知道分享什么&#xff0c;其次就是工作也比较忙&#xff0c;闲暇的时间要么玩游戏、听小说、看电影&#xff0c;虽然也有看书但其实也并不多&#xff0c;以上也都是为了我的懒惰所找的一些借口。 虽然到现在为止也看了百来本书&…

qt结构体嵌套结构体方法_9.2 C++结构体类型变量

C定义结构体类型变量的方法 1、先声明结构体类型再定义变量名&#xff0c;在定义了结构体变量后&#xff0c;系统会为之分配内存单元。struct Student{ //自定义结构体变量int num;//学号char sex;//性别int age;//年龄};2、在声明类型的同时定义变量 一般形式为struct 结构体名…

Vue解析--如何应对面试官提问

近期不断面试中&#xff0c;面试官都会提一些关于Vue相关的源码和“全家桶”之类的问题。那么针对这些提问&#xff0c;我们应该如何更好应答呢&#xff1f;在这里我把对Vue的理解整理出来供大家来参考。 1.Vue是什么&#xff1f; Vue是一套构建用户界面的渐进式框架&#xf…

搭建自动安装的linux,RedHat7搭建无人值守自动安装Linux操作系统(PXE+Kickstart)

Kickstart服务器IP: 192.168.136.253 掩码&#xff1a;255.255.255.0 网关&#xff1a;192.168.136.2 DNS&#xff1a;192.168.136.2安装部署yum源服务器参考 http://www.cnblogs.com/edward2013/p/5020113.html安装部署DHCP服务器# yum -y install dhcp修改配置文件# vi…

Numpy数组的保存与读取方法

1. 数组以二进制格式保存 np.save和np.load是读写磁盘数组数据的两个主要函数。默认情况下&#xff0c;数组以未压缩的原始二进制格式保存在扩展名为npy的文件中&#xff0c;以数组a为例 np.save("filename.npy",a)b np.load("filename.npy")利用这种方法…

Java开发人员的Erlang

您可能没有注意到&#xff0c;但是距离我上次发布博客已经过去了几个星期。 原因是我的Soleus骨折了&#xff0c;而我的腿也石膏了。 不能动弹&#xff0c;我认为调查完全不同的东西是个好主意–要么看那天的电视&#xff0c;要么&#xff0c;尽管Kojak和Magnum PI的重播很诱人…