java字符编码方式总结

java字符编码方式总结一、概要在JAVA应用程序特别是基于WEB的程序中,经常遇到字符的编码问题。为了防止出现乱码,首先需要了解JAVA是如何处理字符的,这样就可以有目的地在输入/输出环节中增加必要的转码。其次,由于各种服务器有不同的处理方式,还需要多做试验,确保使用中不出现乱码。
二、基本概念
2.1 JAVA中字符的表达JAVA中有char、byte、String这几个概念。char 指的是一个UNICODE字符,为16位的整数。byte 是字节,字符串在网络传输或存储前需要转换为byte数组。在从网络接收或从存储设备读取后需要将byte数组转换成String。String是字符串,可以看成是由char组成的数组。String 和 char 为内存形式,byte是网络传输或存储的序列化形式。
举例:
英
String ying = “英”;
char ying = ying.charAt(0);
String yingHex = Integer.toHexString(ying);
82 F1 
byte yingGBBytes = ying.getBytes(“GBK”);
GB编码的字节数值
D3 A2 
2.2 编码方式的简介String序列化成byte数组或反序列化时需要选择正确的编码方式。如果编码方式不正确,就会得到一些0x3F的值。常用的字符编码方式有ISO8859_1、GB2312、GBK、UTF-8/UTF-16/UTF-32。
ISO8859_1用来编码拉丁文,它由单字节(0-255)组成。GB2312、GBK用来编码简体中文,它有单字节和双字节混合组成。最高位为1的字节和下一个字节构成一个汉字,最高位为0的字节是ASCII码。UTF-8/UTF-16/UTF-32是国际标准UNICODE的编码方式。 用得最多的是UTF-8,主要是因为它在对拉丁文编码时节约空间。
UNICODE值 UTF-8编码
U-00000000 - U-0000007F: 0xxxxxxx
U-00000080 - U-000007FF: 110xxxxx 10xxxxxx 
U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx 
U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 
U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 
U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 
三、J2SE中相关的函数
String str =”英”;
//取得GB2312编码的字节
byte[] bytesGB2312 = str.getBytes(“GB2312”); 
//取得平台缺省编码的字节(solaris为ISO8859_1,windows为GB2312)
byte[] bytesDefault = str.getBytes();
//用指定的编码将字节转换成字符串
String newStrGB = new String(bytesGB2312, “GB2312”);//用平台缺省的编码将字节转换成字符串(solaris为ISO8859_1,windows为GB2312)
String newStrDefault = new String(bytesDefault);
//用指定的编码从字节流里面读取字符
InputStream in = xxx;
InputStreamReader reader = InputStreamReader( in, “GB2312”);
char aChar = reader.read();
四、JSP、数据库的编码
4.1 JSP中的编码
(1) 静态声明:
CHARSET有两个作用:
JSP文件的编码方式:在读取JSP文件、生成JAVA类时,源JSP文件中汉字的编码
JSP输出流的编码方式:在执行JSP时,往response流里面写入数据的编码方式
(2) 动态改变:在往response流里面写数据前可以调用response.setContentType(),设定正确的编码类型。
(3) 在TOMCAT中,由Request.getParameter() 得到的参数,编码方式都是ISO8859_1。所以如果在浏览器输入框内输入一个汉字“英”,在服务器端就得到一个ISO8859_1编码的(0x00,0xD3,0x00,0xA2)。所以通常在接收参数时转码:
String wrongStr = response.getParameter(“name”);
String correctStr = new String(wrongStr.getBytes(“ISO8859_1”),”GB2312”);
在最新的SERVLET规范里面,也可以在获取参数之前执行如下代码:
request.setCharacterEncoding(“GB2312”);
4.2 数据库的编码
(1) 数据库使用UTF-16
如果String中是UNICODE字符,写入读出时不需要转码
(2) 数据库使用ISO8859_1
如果String中是UNICODE字符,写入读出时需要转码
写入:String newStr = new String(oldStr.getByte(“GB2312”), “ISO8859_1”);
读出:String newStr = new String(oldStr.getByte(“ISO8859_1”),”GB2312”);
五、源文件的编码
5.1 资源文件
资源文件的编码方式和编辑平台相关。在WINDOWS平台下编写的资源文件,以GB2312方式编码。在编译时需要转码,以确保在各个平台上的正确性:
native2ascii –encoding GB2312 source.properties
这样从资源文件中读出的就是正确的UNICODE字符串。
5.2 源文件
源文件的编码方式和编辑平台相关。在WINDOWS平台下开发的源文件,以GB2312方式编码。在编译的时候,需要指定源文件的编码方式:
javac –encoding GB2312
JAVA编译后生成的字节文件的编码为UTF-8。①最新版TOMCAT4.1.18支持request.setCharacterEncoding(String enc)
②资源文件转码成company.name=\u82f1\u65af\u514b
③如果数据库使用utf-16则不需要这部分转码
④页面上应有
转码ⅰ:
String s = new String
(request.getParameter(“name”).getBytes(“ISO8859_1”),”GB2312”);
转码ⅱ:
String s = new String(name.getBytes(“GB2312”),”ISO8859_1”);
转码ⅲ:
String s = new String(name.getBytes(“ISO8859_1”),” GB2312”);
一、关键技术点:
1、当前流行的字符编码格式有:US-ASCII、ISO-8859-1、UTF-8、UTF-16BE、UTF-16LE、UTF-16、GBK、GB2312等,其中GBK、GB2312是专门处理中文编码的。
2、String的getBytes方法用于按指定编码获取字符串的字节数组,参数指定了解码格式,如果没有指定解码格式,则按系统默认编码格式。
3、String的“String(bytes[] bs, String charset)”构造方法用于把字节数组按指定的格式组合成一个字符串对象二、实例演示: package book.String;
import java.io.UnsupportedEncodingException;
/** *//**
* 转换字符串的编码
* @author joe
*
*/
public class ChangeCharset ...{
/** *//** 7位ASCII字符,也叫作ISO646-US、Unicode字符集的基本拉丁块    */
public static final String US_ASCII = "US-ASCII";
/** *//** ISO拉丁字母表 No.1,也叫做ISO-LATIN-1     */
public static final String ISO_8859_1 = "ISO-8859-1";
/** *//** 8 位 UCS 转换格式     */
public static final String UTF_8 = "UTF-8";
/** *//** 16 位 UCS 转换格式,Big Endian(最低地址存放高位字节)字节顺序     */
public static final String UTF_16BE = "UTF-16BE";
/** *//** 16 位 UCS 转换格式,Litter Endian(最高地址存放地位字节)字节顺序     */
public static final String UTF_16LE = "UTF-16LE";
/** *//** 16 位 UCS 转换格式,字节顺序由可选的字节顺序标记来标识     */
public static final String UTF_16 = "UTF-16";
/** *//** 中文超大字符集     **/
public static final String GBK = "GBK";public static final String GB2312 = "GB2312";/** *//** 将字符编码转换成US-ASCII码     */
public String toASCII(String str) throws UnsupportedEncodingException ...{return this.changeCharset(str, US_ASCII);
}/** *//** 将字符编码转换成ISO-8859-1     */
public String toISO_8859_1(String str) throws UnsupportedEncodingException ...{return this.changeCharset(str, ISO_8859_1);
}/** *//** 将字符编码转换成UTF-8     */
public String toUTF_8(String str) throws UnsupportedEncodingException ...{return this.changeCharset(str, UTF_8);
}/** *//** 将字符编码转换成UTF-16BE     */
public String toUTF_16BE(String str) throws UnsupportedEncodingException...{return this.changeCharset(str, UTF_16BE);
}/** *//** 将字符编码转换成UTF-16LE     */
public String toUTF_16LE(String str) throws UnsupportedEncodingException ...{return this.changeCharset(str, UTF_16LE);
}/** *//** 将字符编码转换成UTF-16     */
public String toUTF_16(String str) throws UnsupportedEncodingException ...{return this.changeCharset(str, UTF_16);
}/** *//** 将字符编码转换成GBK     */
public String toGBK(String str) throws UnsupportedEncodingException ...{return this.changeCharset(str, GBK);
}/** *//** 将字符编码转换成GB2312     */
public String toGB2312(String str) throws UnsupportedEncodingException ...{return this.changeCharset(str,GB2312);
}/** *//*** 字符串编码转换的实现方法* @param str 待转换的字符串* @param newCharset 目标编码*/
public String changeCharset(String str, String newCharset) throws UnsupportedEncodingException ...{if(str != null) ...{//用默认字符编码解码字符串。与系统相关,中文windows默认为GB2312byte[] bs = str.getBytes();return new String(bs, newCharset); //用新的字符编码生成字符串}return null;
}/** *//*** 字符串编码转换的实现方法* @param str 待转换的字符串* @param oldCharset 源字符集* @param newCharset 目标字符集*/
public String changeCharset(String str, String oldCharset, String newCharset) throws UnsupportedEncodingException ...{if(str != null) ...{//用源字符编码解码字符串byte[] bs = str.getBytes(oldCharset);return new String(bs, newCharset);}return null;
}public static void main(String[] args) throws UnsupportedEncodingException ...{ChangeCharset test = new ChangeCharset();String str = "This is a 中文的 String!";System.out.println("str:" + str);String gbk = test.toGBK(str);System.out.println("转换成GBK码:" + gbk);System.out.println();String ascii = test.toASCII(str);System.out.println("转换成US-ASCII:" + ascii);System.out.println();String iso88591 = test.toISO_8859_1(str);System.out.println("转换成ISO-8859-1码:" + iso88591);System.out.println();gbk = test.changeCharset(iso88591, ISO_8859_1, GBK);System.out.println("再把ISO-8859-1码的字符串转换成GBK码:" + gbk);System.out.println();String utf8 = test.toUTF_8(str);System.out.println();System.out.println("转换成UTF-8码:" + utf8);String utf16be = test.toUTF_16BE(str);System.out.println("转换成UTF-16BE码:" + utf16be);gbk = test.changeCharset(utf16be, UTF_16BE, GBK);System.out.println("再把UTF-16BE编码的字符转换成GBK码:" + gbk);System.out.println();String utf16le = test.toUTF_16LE(str);System.out.println("转换成UTF-16LE码:" + utf16le);gbk = test.changeCharset(utf16le, UTF_16LE, GBK);System.out.println("再把UTF-16LE编码的字符串转换成GBK码:" + gbk);System.out.println();String utf16 = test.toUTF_16(str);System.out.println("转换成UTF-16码:" + utf16);String gb2312 = test.changeCharset(utf16, UTF_16, GB2312);System.out.println("再把UTF-16编码的字符串转换成GB2312码:" + gb2312);
}
} 
文章出处:http://www.diybl.com/course/3_program/java/javaxl/20071126/87571.html


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/353144.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

按键扫描

unsigned char Trg,cont,num;void key_sm(void) { uchar Read;ReadP0^0xff;TrgRead&(Read^cont);contRead; } void key_hs(){  switch(Trg)   {     case 0x01:       num;     break;     case 0x02:       num--;     break;     d…

Mathematica函数大全

一、运算符及特殊符号 Line1; 执行Line&#xff0c;不显示结果 Line1,line2 顺次执行Line1&#xff0c;2&#xff0c;并显示结果 ?name 关于系统变量name 的信息 ??name 关于系统变量name 的全部信息 !command 执行Dos 命令 n! N 的阶乘 !!filename 显示文件内容 <<fi…

oem是代工还是贴牌_食用油OEM贴牌代工业务要注意哪些问题?

近年来食用油OEM业务逐渐增加&#xff0c;OEM是英文 Original Equipment Manufacturer的缩写&#xff0c;被译为代工生产或贴牌生产&#xff0c;通常是指品牌商委托有生产能力且品质有保证的油脂加工厂来生产食用油产品&#xff0c;对自己及对方的品牌不会有冲突&#xff0c;且…

java 简化判断_简化Java内存分析

java 简化判断作为一名典型的Java开发人员&#xff0c;除了遵循关闭连接&#xff0c;流等典型的最佳实践外&#xff0c;我从未监视过应用程序的内存使用情况。最近&#xff0c;我们在JBoss服务器中遇到了一些问题&#xff0c;不得不深入研究内存管理Java中最好的事情之一是&…

DRF的序列化组件

rest rest下的url url唯一代表资源&#xff0c;http请求方式来区分用户行为 url的设计规范 GET&#xff1a; 127.0.0.1:9001/books/       # 获取所有数据 GET: 127.0.0.1:9001/books/{id}      # 获取单条数据 POST&#xff1a; 127.0.0.1:9001/books/      # 增…

15crmo焊接后多长时间探伤_承压设备渗透探伤检测方法简单操作思路

啥是渗透检测渗透检测俗称渗透探伤&#xff0c;是一种以毛细管作用原理为基础用于检查表面开口缺陷的无损检测方法。它与射线检测、超声检测、磁粉检测和涡流检测一起&#xff0c;并称为5种常规的无损检测方法&#xff0c;渗透检测始于本世纪初&#xff0c;是目视检查以外最早应…

SpringBoot实战(五)之Thymeleaf

Thymeleaf同jsp、volocity、freemarker等共同的职能是MVC模式中的视图展示层&#xff0c;即View。 当然了&#xff0c;SpringBoot中也可以用jsp,不过不推荐这种用法&#xff0c;比较推崇的就是使用Thymeleaf。 关于Thymeleaf学习&#xff0c;建议参考官方文档:https://www.thym…

Arrays.sort()

今天在做一个按更新时间搜寻出某个文件夹里面的所有文件&#xff0c;由于自己写算法比较花费时间&#xff0c;干脆就用j2se提供的类Arrays提供的sort&#xff08;&#xff09;方法&#xff0c;这样就比较省力。对于基本数据类型只要Arrays.sort(数组)[“注&#xff1a;数组是声…

Thymeleaf 3 – Thymeleaf 3和Spring MVC快速入门

Thymeleaf 3发布到达。 新版本带来了许多新功能&#xff0c;例如HTML5支持以及不带标记的文本模板支持– [# th:utext"${thymeleaf.version}" /] &#xff0c;改进的内联功能– <p>Thymeleaf [[${thymeleaf.version}]] is great!</p> &#xff0c;性能改…

rmi远程代码执行漏洞_【最新漏洞简讯】WebLogic远程代码执行漏洞 (CVE202014645)

↑ 点击上方“SecMind安全管家”关注我们 情报编号&#xff1a;W1120200715漏洞概述WebLogic是Oracle公司出品的用于开发、集成、部署和管理大型分布式Web应用、网络应用和数据库应用的Java应用服务器&#xff0c;全球使用广泛。WebLogic的远程方法调用RMI通信使用T3协议&#…

python 的内存回收,及深浅Copy详解

一、python中的变量及引用1.1 python中的不可变类型&#xff1a;数字(num)、字符串(str)、元组(tuple)、布尔值(bool<True,False>) 接下来我们讲完后你就懂了为什么它们是不可变对象了。 都知道python中一切都是对象&#xff0c;而变量就是这些对象的引用&#xff0c;什么…

不是技术牛人,如何拿到国内IT巨头的Offer

不久前&#xff0c;byvoid面阿里星计划的面试结果截图泄漏&#xff0c;引起无数IT屌丝的羡慕敬仰。看看这些牛人&#xff0c;NOI金牌&#xff0c;开源社区名人&#xff0c;三年级开始写Basic...在跪拜之余我们不禁要想&#xff0c;和这些牛人比&#xff0c;作为绝大部分技术屌丝…

layui列表筛选列_Shopify搜索产品并筛选产品列表功能介绍

搜索产品并筛选产品列表 您的所有产品都列在 Shopify 的产品区域中。每个页面列出 50 种产品。要整理产品列表&#xff0c;并在跨多个页面的列表中查找产品&#xff0c;您可以对列表进行排序、搜索和筛选。默认情况下&#xff0c;产品列表按产品名称的字母顺序(从 A 到 Z)进行排…

远程调用 quartz_如何远程管理Quartz

远程调用 quartz选项1&#xff1a;JMX 许多人问他们是否可以通过JMX管理Quartz&#xff0c;但我不确定为什么Quartz doc甚至不会提及它。 是的&#xff0c;您可以使用quartz.properties的以下命令启用石英中的JMX org.quartz.scheduler.jmx.export true之后&#xff0c;您可以…

DOM解析器

1.DOM标准 DOM&#xff08;Document Object Model&#xff0c;文档对象模型&#xff09;是W3C制定的一套规范标准&#xff0c;即规定了解析文件的接口。各种语言可以按照DOM规范去实现这些接口&#xff0c;给出解析文件的解析器。 各种基于DOM规范解析器必须按照DOM规范在内…

批量打印pdf并合并_批量打印CAD图(无删减版)

前面两期小编出的PDF教程想必用了的人都觉得还不错吧&#xff1f;(此处应有掌声)上一期提到的CAD批量打印今天放出来了&#xff0c;擦亮眼睛往下看很多时候大批量的一堆图纸要输出&#xff0c;比如下面这个当然这批图纸并不多&#xff0c;也只是局部的&#xff0c;通常一个项目…

expect详解及自动登录脚本的实现

expect可以让一些交互的任务自动完成&#xff0c;我们可以将一些交互过程写入脚本&#xff0c;ssh登录就是一个简单的实现&#xff0c;下面将介绍expect的用法。 1 安装 yum install -y expect 2 语法介绍 expect - send 这两个指令会配合使用&#xff0c;当expect接收到一个和…

极端懒惰:使用Spring Boot开发JAX-RS服务

我认为可以公平地说&#xff0c;作为软件开发人员&#xff0c;我们一直在寻找编写较少代码的方法&#xff0c;这些方法可以自动完成或不能自动完成更多工作。 考虑到这一点&#xff0c;作为Spring产品组合的骄傲成员的Spring Boot项目破坏了传统方法&#xff0c;极大地加快了并…

透明怎么弄_最新版微信如何设置透明背景?这样设置,效果令人惊喜

微信叒更新了&#xff0c;你的微信有更新吗&#xff1f;听说这次更新是安卓端的先更新&#xff0c;苹果端的还不能更新。今天小编要跟大家分享的是新版微信应该如何设置透明背景&#xff0c;不清楚微信透明背景长什么样子的&#xff1f;没关系&#xff0c;给你看看设置透明背景…

QueryRunner使用

在相继学习了JDBC和数据库操作之后&#xff0c;我们明显感到编写JDBC代码并非一件轻松的事儿。为了帮助我们更高效的学习工作&#xff0c;从JDBC的繁重代码中解脱出来&#xff0c;老佟给我们详尽介绍了一个简化JDBC操作的组件——DBUtils。我们今天主要学习了它所提供的两个类和…