java中文乱码解决之道(五)—–java是如何编码解码的

编码&解码

1:I/O操作

2:内存

3:数据库

4:javaWeb

下面主要介绍前面两种场景,数据库部分只要设置正确编码格式就不会有什么问题,javaWeb场景过多需要了解URL、get、POST的编码,servlet的解码,所以javaWeb场景下节LZ介绍。

I/O操作
在前面LZ就提过乱码问题无非就是转码过程中编码格式的不统一产生的,比如编码时采用UTF-8,解码采用GBK,但最根本的原因是字符到字节或者字节到字符的转换出问题了,而这中情况的转换最主要的场景就是I/O操作的时候。当然I/O操作主要包括网络I/O(也就是javaWeb)和磁盘I/O。网络I/O下节介绍。

首先我们先看I/O的编码操作。



InputStream为字节输入流的所有类的超类,Reader为读取字符流的抽象类。java读取文件的方式分为按字节流读取和按字符流读取,其中InputStream、Reader是这两种读取方式的超类。

按字节

我们一般都是使用InputStream.read()方法在数据流中读取字节(read()每次都只读取一个字节,效率非常慢,我们一般都是使用read(byte[])),然后保存在一个byte[]数组中,最后转换为String。在我们读取文件时,读取字节的编码取决于文件所使用的编码格式,而在转换为String过程中也会涉及到编码的问题,如果两者之间的编码格式不同可能会出现问题。例如存在一个问题test.txt编码格式为UTF-8,那么通过字节流读取文件时所获得的数据流编码格式就是UTF-8,而我们在转化成String过程中如果不指定编码格式,则默认使用系统编码格式(GBK)来解码操作,由于两者编码格式不一致,那么在构造String过程肯定会产生乱码,如下:

File file = new File("C:\\test.txt");InputStream input = new FileInputStream(file);StringBuffer buffer = new StringBuffer();byte[] bytes = new byte[1024];for(int n ; (n = input.read(bytes))!=-1 ; ){buffer.append(new String(bytes,0,n));}System.out.println(buffer);

输出结果:锘挎垜鏄?cm

test.txt中的内容为:我是 cm。

要想不出现乱码,在构造String过程中指定编码格式,使得编码解码时两者编码格式保持一致即可:

buffer.append(new String(bytes,0,n,"UTF-8"));

按字符

其实字符流可以看做是一种包装流,它的底层还是采用字节流来读取字节,然后它使用指定的编码方式将读取字节解码为字符。在java中Reader是读取字符流的超类。所以从底层上来看按字节读取文件和按字符读取没什么区别。在读取的时候字符读取每次是读取留个字节,字节流每次读取一个字节。

字节&字符转换

字节转换为字符一定少不了InputStreamReader。API解释如下:InputStreamReader 是字节流通向字符流的桥梁:它使用指定的 charset 读取字节并将其解码为字符。它使用的字符集可以由名称指定或显式给定,或者可以接受平台默认的字符集。 每次调用 InputStreamReader 中的一个 read() 方法都会导致从底层输入流读取一个或多个字节。要启用从字节到字符的有效转换,可以提前从底层流读取更多的字节,使其超过满足当前读取操作所需的字节。API解释非常清楚,InputStreamReader在底层读取文件时仍然采用字节读取,读取字节后它需要根据一个指定的编码格式来解析为字符,如果没有指定编码格式则采用系统默认编码格式。

String file = "C:\\test.txt"; String charset = "UTF-8"; // 写字符换转成字节流FileOutputStream outputStream = new FileOutputStream(file); OutputStreamWriter writer = new OutputStreamWriter(outputStream, charset); try { writer.write("我是 cm"); } finally { writer.close(); } // 读取字节转换成字符FileInputStream inputStream = new FileInputStream(file); InputStreamReader reader = new InputStreamReader( inputStream, charset); StringBuffer buffer = new StringBuffer(); char[] buf = new char[64]; int count = 0; try { while ((count = reader.read(buf)) != -1) { buffer.append(buf, 0, count); } } finally { reader.close(); }System.out.println(buffer);

内存
首先我们看下面这段简单的代码

String s = "我是 cm"; byte[] bytes = s.getBytes(); String s1 = new String(bytes,"GBK"); String s2 = new String(bytes);

在这段代码中我们看到了三处编码转换过程(一次编码,两次解码)。先看String.getTytes():

public byte[] getBytes() {return StringCoding.encode(value, 0, value.length);}

内部调用StringCoding.encode()方法操作:

static byte[] encode(char[] ca, int off, int len) {String csn = Charset.defaultCharset().name();try {// use charset name encode() variant which provides caching.return encode(csn, ca, off, len);} catch (UnsupportedEncodingException x) {warnUnsupportedCharset(csn);}try {return encode("ISO-8859-1", ca, off, len);} catch (UnsupportedEncodingException x) {// If this code is hit during VM initialization, MessageUtils is// the only way we will be able to get any kind of error message.MessageUtils.err("ISO-8859-1 charset not available: "+ x.toString());// If we can not find ISO-8859-1 (a required encoding) then things// are seriously wrong with the installation.System.exit(1);return null;}}

encode(char[] paramArrayOfChar, int paramInt1, int paramInt2)方法首先调用系统的默认编码格式,如果没有指定编码格式则默认使用ISO-8859-1编码格式进行编码操作,进一步深入如下:

String csn = (charsetName == null) ? "ISO-8859-1" : charsetName;

同样的方法可以看到new String 的构造函数内部是调用StringCoding.decode()方法:

public String(byte bytes[], int offset, int length, Charset charset) {if (charset == null)throw new NullPointerException("charset");checkBounds(bytes, offset, length);this.value =  StringCoding.decode(charset, bytes, offset, length);}

decode方法和encode对编码格式的处理是一样的。

对于以上两种情况我们只需要设置统一的编码格式一般都不会产生乱码问题。

编码&编码格式
首先先看看java编码类图



首先根据指定的chart设置ChartSet类,然后根据ChartSet创建ChartSetEncoder对象,最后再调用 CharsetEncoder.encode 对字符串进行编码,不同的编码类型都会对应到一个类中,实际的编码过程是在这些类中完成的。下面时序图展示详细的编码过程:



通过这编码的类图和时序图可以了解编码的详细过程。下面将通过一段简单的代码对ISO-8859-1、GBK、UTF-8编码

public class Test02 {public static void main(String[] args) throws UnsupportedEncodingException {String string = "我是 cm";Test02.printChart(string.toCharArray());Test02.printChart(string.getBytes("ISO-8859-1"));Test02.printChart(string.getBytes("GBK"));Test02.printChart(string.getBytes("UTF-8"));}/*** char转换为16进制*/public static void printChart(char[] chars){for(int i = 0 ; i < chars.length ; i++){System.out.print(Integer.toHexString(chars[i]) + " "); }System.out.println("");}/*** byte转换为16进制*/public static void printChart(byte[] bytes){for(int i = 0 ; i < bytes.length ; i++){String hex = Integer.toHexString(bytes[i] & 0xFF); if (hex.length() == 1) { hex = '0' + hex; } System.out.print(hex.toUpperCase() + " "); }System.out.println("");}
}
-------------------------outPut:
6211 662f 20 63 6d 
3F 3F 20 63 6D 
CE D2 CA C7 20 63 6D 
E6 88 91 E6 98 AF 20 63 6D

通过程序我们可以看到“我是 cm”的结果为:

char[]:6211 662f 20 63 6d

ISO-8859-1:3F 3F 20 63 6D
GBK:CE D2 CA C7 20 63 6D
UTF-8:E6 88 91 E6 98 AF 20 63 6D

图如下:


原文链接

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/281424.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java反射--Class类

面向对象的世界里&#xff0c;万事万物皆对象。 1&#xff09;类是谁的对象呢&#xff1f; 类是对象&#xff0c;类是java.lang.Class类的实例对象。 2&#xff09;这个对象如何表示呢&#xff1f; package com.reflect;public class ClassDemo1 {public static void main(Stri…

win10系统按esc会弹出计算机,win10系统版本2004控制面板多出ESC是什么原因?

如果我们的电脑在升级了win102004控制面板多出ESC什么情况方法一&#xff1a;“干净启动”&#xff0c;排除第三方软体的影响1.停止非核心的程序运作(包括第三方杀毒、优化软体)2.情况允许的话&#xff0c;卸载设备中的第三方杀毒、管家、优化软件3.同时按【4.点击【服务】>…

CentOS6/7 配置守护进程

CentOS6.xCentOS6中转用Upstrat代替以前的init.d/rcX.d的线性启动方式。一、相关命令通过initctl help可以查看相关命令[rootlocalhost ~]# initctl help Job commands:start Start job.stop Stop job.restart …

Vue源码解析之数组变异

力有不逮的对象 众所周知&#xff0c;在 Vue 中&#xff0c;直接修改对象属性的值无法触发响应式。当你直接修改了对象属性的值&#xff0c;你会发现&#xff0c;只有数据改了&#xff0c;但是页面内容并没有改变。 这是什么原因&#xff1f; 原因在于&#xff1a; Vue 的响应式…

linux守护进程的编写

linux监控一个进程进行 代码如下: #!/bin/shcd /home/autoprocess/ autopgrep -f autoProcessNew.php | wc -l if [ "$auto" 0 ] then nohup php autoProcessNew.php & fi 监视autoProcessNew.php,使他一直监视转载于:https://www.cnblogs.com/matengfei123/p/…

微软2014编程之美初赛第一场——题目3 : 活动中心

【来源】 题目3 : 活动中心 【分析】 本题採用的是三分法。 输入的一组点中找出左右边界。作为起始边界。 while(右边界-左边界<精度){将左右边界构成的线段均匀分成3段&#xff0c;推断切割点的距离关系&#xff0c;抹去距离大的一段。更新左右边界。 } 输出左(右)边界 【…

windows10计算机里输入法,win10电脑上输入法不见了怎么办

好的输入法可以加快我们的工作效率&#xff0c;当电脑上输入法不见时&#xff0c;你会调出来吗?下面小编告诉你win10电脑上输入法不见时弄出来的一些诀窍吧。win10电脑上输入法不见了的解决方法win10电脑上输入法不见了的解决方法&#xff1a;Win10系统输入法图标不见了的找回…

Java并发(二十一):线程池实现原理

一、总览 线程池类ThreadPoolExecutor的相关类需要先了解&#xff1a; &#xff08;图片来自&#xff1a;https://javadoop.com/post/java-thread-pool#%E6%80%BB%E8%A7%88&#xff09; Executor&#xff1a;位于最顶层&#xff0c;只有一个 execute(Runnable runnable) 方法&a…

进程池

转自&#xff1a;https://www.cnblogs.com/kaituorensheng/p/4465768.html 在利用Python进行系统管理的时候&#xff0c;特别是同时操作多个文件目录&#xff0c;或者远程控制多台主机&#xff0c;并行操作可以节约大量的时间。当被操作对象数目不大时&#xff0c;可以直接利用…

gulp版本号管理插件注意事项

2019独角兽企业重金招聘Python工程师标准>>> 打开node_modules\gulp-rev\index.js 第144行 manifest[originalFile] revisionedFile; 更新为: manifest[originalFile] originalFile ?v file.revHash; 打开node_modules\rev-path\index.js 第10行 return filena…

bigfile.to服务器位置,Cloudera Manager 迁移服务器

Cloudera Manager还是比较耗资源的&#xff0c;想把Cloudera Manager&#xff0c;移动到比较好的机器上。在这篇文章中&#xff0c;Cloudera Manager安装在bigserver1上面&#xff0c;bigserver1是奔腾双核的CPU。1&#xff0c;Cloudera Manager占资源比较多cloudera manager占…

vue定时ajax获取数据,vue 中使用 AJAX获取数据的方法

在VUE开发时&#xff0c;数据可以使用jquery和vue-resource来获取数据。在获取数据时&#xff0c;一定需要给一个数据初始值。看下例&#xff1a;new Vue({el:#app,data:{data:""},created:function(){var url"json.jsp";var _selfthis;$.get(url,function…

转:shell awk

简单使用&#xff1a; awk &#xff1a;对于文件中一行行的独处来执行操作 。 awk -F &#xff1a;{print $1,$4} :使用‘&#xff1a;’来分割这一行&#xff0c;把这一行的第一第四个域打印出来 。 详细介绍&#xff1a; AWK命令介绍 awk语言的最基本功能是在文件或字符串中基…

Mac使用crontab来实现定时任务

crontab 定时执行 配置文件都在/etc/crontab下&#xff0c;如果没有就创建 语法&#xff1a; crontab [-e [UserName]|-l [UserName]|-r [UserName]|-v [UserName]|File ] 说明&#xff1a; crontab 是用来让使用者在固定时间或固定间隔执行程序之用&#xff0c;换句话说&#…

前端技术周刊 2018-12-03:DOM

前端快爆 Chrome 71 开始将试用 SXG 功能&#xff0c;它是由 IETF 提出&#xff0c;Web Package 协议规范下的 Signed HTTP Exchanges 功能的缩写。该技术使得一个第三方服务器可以直接向用户提供可靠资源&#xff0c;且不用与原站共享 HTTPS 证书密钥。?点评&#xff1a;一项…

公司新来了一位阿里P9,在全员大会上讲荤段子!还是上个世纪的老段子,太烂了!...

阿里P9在坊间的名声一向不好&#xff0c;这几年在业界出了不少令人无语的新闻&#xff0c;今天又来了一个&#xff1a;公司新来了一位阿里P9伪高管&#xff0c;全员大会上来先讲了一个荤段子&#xff0c;这个破段子还是上个世纪的&#xff0c;太烂了&#xff01;关于这个段子&a…

【转】博客美化(1)基本后台设置与样式设置

阅读目录 1.博客园后台设置2.自定义样式的设置博客园美化相关文章目录&#xff1a;博客园博客美化相关文章目录 一直都拜膜那些博客园的皮肤设计高手&#xff0c;由于本人对前端研究甚少&#xff0c;所以js,css这种东西只能看得懂最基本的&#xff0c;会简单改改。然后一直对自…

Airdoc创始人:工智能可以在医疗领域多个环节发挥作用 但有局限性

7月1日&#xff0c;在由武汉国家生物产业基地建设管理办公室主办、火石创造承办、光谷健康智慧园协办的医疗大数据与医学人工智能高峰论坛上&#xff0c;Airdoc创始人兼董事长张大磊做了题为《AI在医疗领域中应用的问题与局限》的演讲。 Airdoc是医疗领域人工智能领军企业&…

我的世界服务器抽奖系统怎么弄,我的世界自动识别货币抽奖机如何制作

我的世界是一款很经典的沙盒类游戏&#xff0c;在游戏中红石和命令方块是这部作品的核心&#xff0c;可以制作很多装备和道具&#xff0c;下面给大家分享下我的世界自动识别货币抽奖机如何制作&#xff0c;希望对大家有所帮助。自动识别货币抽奖机制作方法废话不多说,(貌似一句…

Java并发编程中volatile实现过程详细解析

2019独角兽企业重金招聘Python工程师标准>>> 首先并发编程有三大特性&#xff1a; 可见性&#xff0c;有序性&#xff0c;原子性。volatile关键字实现了前面两个特性。那么它是如何实现这两个特性的呢&#xff1f; 首先是可见性。可见性主要是让缓存&#xff0c;直接…