面试官问:一个Java字符串中到底能有多少个字符?

作者 | 鸟窝

来源 | urlify.cn/qYNR3q

依照Java的文档, Java中的字符内部是以UTF-16编码方式表示的,最小值是 \u0000 (0),最大值是\uffff(65535), 也就是一个字符以2个字节来表示,难道Java最多只能表示 65535个字符?

char: The char data type is a single 16-bit Unicode character. It has a minimum value of '\u0000' (or 0) and a maximum value of '\uffff' (or 65,535 inclusive). from The Java™ Tutorials

首先,让我们先看个例子:

public class Main {public static void main(String[] args) {// 中文常见字String s = "你好";System.out.println("1. string length =" + s.length());System.out.println("1. string bytes length =" + s.getBytes().length);System.out.println("1. string char length =" + s.toCharArray().length);System.out.println();// emojiss = "????????";System.out.println("2. string length =" + s.length());System.out.println("2. string bytes length =" + s.getBytes().length);System.out.println("2. string char length =" + s.toCharArray().length);System.out.println();// 中文生僻字s = "????妹";System.out.println("3. string length =" + s.length());System.out.println("3. string bytes length =" + s.getBytes().length);System.out.println("3. string char length =" + s.toCharArray().length);System.out.println();}
}

运行这个程序,你觉得输出结果是什么?

输出结果:

1. string length =2
1. string bytes length =6
1. string char length =2
2. string length =4
2. string bytes length =8
2. string char length =4
3. string length =3
3. string bytes length =7
3. string char length =3

我们知道, String.getBytes()如果不指定编码格式,Java会使用操作系统的编码格式得到字节数组,在我的MacOS中,默认使用UTF-8作为字符编码(locale命令可以查看操作系统的编码),所以在我的机器运行,String.getBytes()会返回UTF-8编码的字节数组。

String.length返回Unicode code units的长度。

String.toCharArray返回字符数组。

我们设置的字符串都是两个unicode字符,输出结果:

  • 普通的中文字:字符串的长度是2,每个中文字按UTF-8编码是三个字节,字符数组的长度看起来也没问题

  • emojis字符:我们设置了两个emojis字符,男女头像。结果字符串的长度是4, UTF-8编码8个字节,字符数组的长度是4

  • 生僻的中文字:我们设置了两个中文字,其中一个是生僻的中文字。结果字符串的长度是3, UTF-8编码7个字节,字符数组的长度是3

看起来字符串的字符数和我们预期的有点不一样,我们的字符串只有两个unicode字符, 可是输出结果有时候是2,有时候是3, 有时候是4,为什么呢?

这还得从Java的历史说起。

Java最初设计的Charactor用两个字节来表示unicode字符,这没有问题, 因为最初unicode中的字符还比较少, Java 1.1之前采用Unicode version 1.1.5, JDK 1.1中支持Unicode 2.0, JDK 1.1.7支持Unicode 2.1, Java SE 1.4 支持 Unicode 3.0, Java SE 5.0开始支持Unicode 4.0。

直到Unicode 3.0, Java用两个字节来表示unicode字符还没有问题,因为Unicode 3.0最多49,259个字符, 两个字节可以表示65,535个字符,还足够容的下所有的uicode3.0字符。

但是Unicode 4.0(事实上自Unicode 3.1), 字符集进行很大的扩充,已经达到了96,447个字符,Unicode 11.0已经包含137,374个字符。

在Unicode中,为每一个字符对应一个编码点(一个整数),用 U+紧跟着十六进制数表示。所有字符按照使用上的频繁度划分为 17 个平面(编号为 0-16),即基本的多语言平面和增补平面。基本的多语言平面(英文为 Basic Multilingual Plane,简称 BMP)又称平面 0,收集了使用最广泛的字符。

这样一来,Java的Charactor的两个字节的设计,已经不足以容纳所有的Unicode 4的字符, 所以可能需要4个字节才能表示扩展字符,所以现在的Charactor代表的已经不再是一个字符 (代码点 code point), 而是一个代码单元(code unit)。

  • Code Point:代码点,一个字符的数字表示。一个字符集一般可以用一张或多张由多个行和多个列所构成的二维表来表示。二维表中行与列交叉的点称之为代码点,每个码点分配一个唯一的编号数字,称之为码点值或码点编号,除开某些特殊区域(比如代理区、专用区)的非字符代码点和保留代码点,每个代码点唯一对应于一个字符。从U+0000 到 U+10FFFF。

  • Code Unit:代码单元,是指一个已编码的文本中具有最短的比特组合的单元。对于 UTF-8 来说,代码单元是 8 比特长;对于 UTF-16 来说,代码单元是 16 比特长。换一种说法就是 UTF-8 的是以一个字节为最小单位的,UTF-16 是以两个字节为最小单位的。

Java的字符在内部以UTF-16编码方式来表示,String.length返回的是Code Unit的长度,而不再是Unicode中字符的长度。对于传统的BMP平面的代码点,String.length和我们传统理解的字符的数量是一致的,对于扩展的字符,String.length可能是我们理解的字符长度的两倍。

有可能你会问, 对于一个UTF-16编码的扩展字符,它以4个字节来表示,那么前两个字节会不会和BMP平面冲突,导致程序不知道它是扩展字符还是BMP平面的字符?

其实是不会的, 幸运的是, 在BMP平面中, U+D800到U+DFFF之间的码位是永久保留不映射到Unicode字符,UTF-16就利用保留下来的0xD800-0xDFFF区块的码位来对辅助平面的字符的码位进行编码。

UTF-16编码中,辅助平面中的码位从U+10000到U+10FFFF,共计FFFFF个,需要20位来表示。第一个整数(两个字节,称为前导代理)要容纳上述20位的前10位,第二个整数(称为后尾代理)容纳上述20位的后10位。前导代理的值的范围是0xD800到0xDBFF,后尾代理的0xDC00~0xDFFF。

可以看到前导代理和后尾代理的范围都落在了BMP平面中不用来映射的码位,所以不会产生冲突,而且前导代理和后尾代理也没有重合。这样我们得到两个字节的,就可以直接判断它是否是BMP平面的字符,还是扩展字符中的前导代理还是后尾代码。

国外的有些用户用emojis字符做自己的昵称,导致有些系统不能正确的显示出来,这是因为这些系统粗暴的使用Charactor来表示,在显示的时候截断的时候有时候可能不是在正确的代码点上进行截断。

我们在进行字符串截取的时候,比如String.substring有可能会踩到一些坑,尤其经常使用的emojis字符。

自 Java 1.5 java.lang.String就提供了Code Point方法, 用来获取完整的Unicode字符和Unicode字符数量:

public int codePointAt(int index)
public int codePointBefore(int index)
public int codePointCount(int beginIndex, int endIndex)

注意这些方法中的index使用的是code unit值。

近期热文

 
  • 面试珍藏:最常见的200多道Java面试题

  • 被一个熟悉的面试题问懵了:StringBuilder 为什么线...

  • 面试官:如何实现幂等性校验?

【END】

关注下方二维码,订阅更多精彩内容

朕已阅 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/546455.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PHP多进程处理并行处理任务实例

2019独角兽企业重金招聘Python工程师标准>>> 本文目的 本文通过例子讲解linux环境下,使用php进行并发任务处理,以及如何通过pipe用于进程间的数据同步。写得比较简单,作为备忘录。 PHP多进程 通过pcntl_XXX系列函数使用多进程功能…

Python PyCharm利用PyQt5使QPlainTextEdit支持拖放文件,类提升,重写QPlainTextEdit类

一、利用PyCharm新建基于PyQt5对话框工程MyMainTest,添加QPlainTextEdit控件,保存主窗口MyQTMainForm.ui文件运行如下: 二、新建myqplaintextedit.py文件,创建MyQPlainTextEdit类继承于QPlainTextEdit,只允许excel(.xls或.xlsx)文件拖放,及信号发射处理。代码如下: #…

经典面试题|ConcurrentHashMap 读操作为什么不需要加锁?

作者 | 上帝爱吃苹果来源 | cnblogs.com/keeya/p/9632958.html我们知道,ConcurrentHashmap(1.8)这个并发集合框架是线程安全的,当你看到源码的get操作时,会发现get操作全程是没有加任何锁的,这也是这篇博文讨论的问题——为什么它…

正能量

2019独角兽企业重金招聘Python工程师标准>>> 对别人,永远把最好的方面表现出来,这样别人都会为你传递正能量,你就能够得到能量累加。 对自己,要自信,永远给自己传递正能量,这样自己周边的能量场…

Python datetime time计算时间差

一、计算时间差 """ python主文件 """ # -*- coding: utf-8 -*-import time"""主函数 """ if __name__ __main__:# 获取当前开始的日期和时间,例:2022-02-05 14:20:36strStartDateTime …

面试官 | AJAX请求为什么不安全?

作者 | 撒网要见鱼链接 | cnblogs.com/dailc/p/8191150.html# AJAX三问AJAX请求真的不安全么?AJAX请求哪里不安全?怎么样让AJAX请求更安全?# 前言本文包含的内容较多,包括AJAX,CORS,XSS,CSRF等内…

IE6,IE7 Firefox 兼容问题

2019独角兽企业重金招聘Python工程师标准>>> 关于ie6、ie7和ff浏览器兼容网友评论 0 条 转载到博客 2009-1-8 16:11:23 来源: 本站整理顶一下这些方法都是我平时用到时在网上找到收藏下来的呵呵,我提前声明一下免得误会!一、CSS HACK以下两种方法几乎能…

面试官 | 说一下什么是代理模式?

看了这篇文章,你会对静态代理模式,JDK 动态代理模式和 CGLIB 动态代理模式有个很清晰的认识。01、简介什么是代理模式代理模式也称为委托模式,属于结构型模式之一。在某些情况下,一个对象不适合或者不能直接引用另一个对象&#x…

面试官 | 说一下 JVM 常用参数有哪些?

作者 | SimpleSmile_5177来源 | i7q.cn/50SRVt前言说一下 JVM 常用的参数有哪些?是比较常用的面试问题,同时如果项目特别大了,需要增加一下堆内存的大小、或者是系统老是莫明的挂掉,想查看下gc日志来排查一下错误的原因&#xff…

CSS 实现按钮及线呼吸灯效果

1. [代码]style view sourceprint?01<style>02 body{03 font-family:Segoe UI Light,Segoe UI,Arial,微软雅黑,sans-serif;04 font-size: 20px;05 color:#333333;0607 }08 .breath {…

美团面试题 | JVM 堆内存溢出后,其他线程是否可继续工作?

作者&#xff1a;gosaintmrc来源&#xff1a;http://sina.lt/gqaM最近网上出现一个美团面试题&#xff1a;“一个线程OOM后&#xff0c;其他线程还能运行吗&#xff1f;”我看网上出现了很多不靠谱的答案。这道题其实很有难度&#xff0c;涉及的知识点有jvm内存分配、作用域、g…

Python格式化字符串f-string常用用法

简介&#xff1a; f-string&#xff0c;亦称为格式化字符串常量&#xff08;formatted string literals&#xff09;&#xff0c;是Python3.6新引入的一种字符串格式化方法&#xff0c;该方法源于PEP 498 – Literal String Interpolation&#xff0c;主要目的是使格式化字符串…

面试官 | Java 对象不使用时为什么要赋值为 null?

作者 | zhantong来源 | www.polarxiong.com前言许多Java开发者都曾听说过“不使用的对象应手动赋值为null“这句话&#xff0c;而且好多开发者一直信奉着这句话&#xff1b;问其原因&#xff0c;大都是回答“有利于GC更早回收内存&#xff0c;减少内存占用”&#xff0c;但再往…

CentOS 6.5下利用Rsyslog+LogAnalyzer+MySQL部署日志服务器

一、简介 LogAnalyzer 是一款syslog日志和其他网络事件数据的Web前端。它提供了对日志的简单浏览、搜索、基本分析和一些图表报告的功能。数据可以从数据库或一般的syslog文本文件中获取&#xff0c;所以LogAnalyzer不需要改变现有的记录架构。基于当前的日志数据&#xff0c;它…

国内各大厂 | 简历投递信息汇总和精美模板下载

作者 | 王磊来源 | Java中文社群1 前言为了让你的简历能被各大厂商的 HR 第一时间看到&#xff0c;我人工整理了以下投递渠道方便你能直接投递&#xff0c;下面一起来看&#xff08;排名不分先后&#xff09;。2 投递信息汇总阿里巴巴https://campus.alibaba.com/index.htm腾讯…

面试官 | 为什么用了索引之后,查询就会变快?

为什么用了索引之后&#xff0c;查询就会变快&#xff1f;相信很多程序员朋友对数据的索引并不陌生&#xff0c;最常见的索引是 B Tree 索引&#xff0c;索引可以加快数据库的检索速度&#xff0c;但是会降低新增、修改、删除操作的速度&#xff0c;一些错误的写法会导致索引失…

社会化海量数据采集爬虫框架搭建

随着BIG DATA大数据概念逐渐升温&#xff0c;如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。 我们来…

面试官 | Nginx 是什么?有什么作用?

作者 | 蔷薇Nina来源 | cnblogs.com/wcwnina/p/8728391.htmlNginx 同 Apache 一样都是一种 Web 服务器。基于 REST 架构风格&#xff0c;以统一资源描述符&#xff08;Uniform Resources Identifier&#xff09;URI 或者统一资源定位符&#xff08;Uniform Resources Locator&a…

面试官 | count(1)、count(*) 、count(列名) 有什么区别?

作者 | BigoSprite来源 | 39sd.cn/0926A先看执行效果&#xff1a;1. count(1) and count(*)当表的数据量大些时&#xff0c;对表作分析之后&#xff0c;使用count(1)还要比使用count(*)用时多了&#xff01; 从执行计划来看&#xff0c;count(1)和count(*)的效果是一样的。但是…

年终盘点 | 2019年Java面试题汇总篇(附答案)

作者 | 老王来源 | Java中文社群「微信公众号」在这岁月更替辞旧迎新的时刻&#xff0c;老王盘点了一下自己 2019 年发布的所有文章&#xff0c;意外的发现关于「Java面试」的主题文章&#xff0c;竟然发布了 52 篇&#xff0c;几乎是全年每周一篇面试文章的节奏&#xff0c;当…