2个在Java中将Byte []数组转换为String的示例

将字节数组转换为String似乎很容易,但是很难做到正确。 每当字节转换为String或char时,许多程序员都会犯忽略字符编码的错误,反之亦然。 作为程序员,我们都知道计算机只能理解二进制数据,即0和1。我们看到和使用的所有内容,例如图像,文本文件,电影或任何其他多媒体,都以字节形式存储,但更重要的是是将字节编码或解码为字符的过程。 数据转换是任何编程面试中的重要主题,并且由于字符编码的棘手性,该问题是Java面试中最受欢迎的String Interview问题之一 。 从输入源(例如XML文件,HTTP请求,网络端口或数据库)读取字符串时,必须注意编码它们的字符编码(例如UTF-8,UTF-16和ISO 8859-1)。 如果在将字节转换为String时不使用相同的字符编码,则最终会导致String损坏,其中可能包含完全不正确的值。 您可能已经看到?,在将byte []转换为String之后的方括号,是由于您当前的字符编码不支持这些值,而只是显示了一些垃圾值。

我试图理解为什么程序经常会犯字符编码错误,而我的研究和经验表明,这可能是由于两个原因,首先是国际化和字符编码处理不充分,其次是ASCII字符受支持。几乎所有流行的编码方案都具有相同的值。 由于我们主要处理UTF-8,Cp1252和Windows-1252之类的编码,即使您使用不同的编码方案,它们也会显示ASCII字符(主要是字母和数字)而不会失败。 当您的文本包含特殊字符(例如'é')时 ,真正的问题就来了,这在法语名称中经常使用。 如果平台的字符编码无法识别该字符,那么您将看到一个不同的字符或某种垃圾,并且可悲的是,直到您的手被烫伤为止,您不太可能对字符编码保持谨慎。 在Java中,事情有点棘手,因为默认情况下,许多IO类(例如InputStreamReader)使用平台的字符编码。 这意味着,如果在不同的计算机上运行程序,则由于该计算机上使用的字符编码不同,您可能会获得不同的输出。 在本文中,我们将学习如何通过使用JDK API以及Guava和Apache Commons的帮助, 在Java中将byte []转换为String

在Java中,有多种将字节数组更改为String的方法,您可以使用JDK中的方法,也可以使用开放源代码的补充API,例如Apache Commons和Google Guava。 这些API提供了至少两组方法来创建String形式的字节数组。 一种使用默认平台编码,另一种使用字符编码。 您应该始终使用后面的一种,不要依赖平台编码。 我知道,可能是相同的,或者到目前为止您可能还没有遇到任何问题,但是安全起来总比对不起好。 正如我在上一篇关于将字节数组打印为十六进制字符串的文章中所指出的那样,这也是在将字节转换为任何编程语言的字符时指定字符编码的最佳实践之一。 您的字节数组可能包含不可打印的ASCII字符。 首先让我们看看JDK将byte []转换为String的方式:

  1. 您可以使用String的构造函数,该构造函数采用字节数组和字符编码:
    String str = new String(bytes, "UTF-8");

    这是将字节转换为String的正确方法,前提是您可以确定字节是以您使用的字符编码进行编码的。

  2. 如果要从任何文本文件(例如XML文档,HTML文件或二进制文件)读取字节数组,则可以使用Apache Commons IO库将FileInputStream直接转换为String。 此方法还在内部缓冲输入,因此无需使用其他BufferedInputStream 。
    String fromStream = IOUtils.toString(fileInputStream, "UTF-8");

为了正确地将这些字节数组转换为String,您必须首先通过读取元数据来发现正确的字符编码,例如Content-Type,<?xml encoding =”…”>等,具体取决于所读取数据的格式/协议。 这是我建议使用XML解析器(例如SAX或DOM解析器)读取XML文件的原因之一,它们自己负责字符编码。

一些程序员还建议使用Charset over String来指定字符编码,例如,代替“ UTF-8”使用StandardCharsets.UTF_8主要是为了避免在最坏的情况下出现UnsupportedEncodingException。 保证所有Java平台实现都支持六个标准的Charset实现。 您可以使用它们来代替在String中指定编码方案。 简而言之,始终首选使用StandardCharsets.ISO_8859_1而不是“ ISO_8859_1”,如下所示:

String str = IOUtils.toString(fis,StandardCharsets.UTF_8);

Java平台支持的其他标准字符集是:

  1. StandardCharsets.ISO_8859_1
  2. 标准字符集
  3. 标准字符集.UTF_16
  4. 标准字符集.UTF_16BE
  5. 标准字符集.UTF_16LE

如果您正在从输入流中读取字节,则还可以查看我之前的文章,了解有关在Java中将InputStream转换为String的5种方法 。

原始XML

这是我们的示例XML代码段,以演示使用默认字符编码的问题。 该文件包含字母'é' ,由于默认字符编码为Cp1252 ,因此无法在Eclipse中正确显示

xml version="1.0" encoding="UTF-8"?>
<banks><bank><name>Industrial & Commercial Bank of China </name><headquarters> Beijing , China</headquarters></bank><bank><name>Crédit Agricole SA</name><headquarters>Montrouge, France</headquarters></bank><bank><name>Société Générale</name><headquarters>Paris, Île-de-France, France</headquarters></bank>
</banks>

并且,当您将字节数组转换为String而不指定字符编码时会发生这种情况,例如:

String str = new String(filedata);

这将使用平台的默认字符编码,在这种情况下为Cp1252 ,因为我们正在Eclipse IDE中运行此程序。 您会看到字母“é”显示不正确。

xml version="1.0" encoding="UTF-8"?>
<banks><bank><name>Industrial & Commercial Bank of China </name><headquarters> Beijing , China</headquarters></bank><bank><name>Crédit Agricole SA</name><headquarters>Montrouge, France</headquarters></bank><bank><name>Société Générale</name><headquarters>Paris, Île-de-France, France</headquarters></bank>
</banks>

要解决此问题,请在从字节数组创建String时指定字符编码,例如

String str = new String(filedata, "UTF-8");

顺便说一句,让我说清楚,即使我已经在这里使用InputStream读取XML文件,这也不是一个好习惯,实际上,这是个坏习惯。 您应该始终使用正确的XML解析器来读取XML文档。 如果您不知道如何操作,请查看本教程 。 由于此示例主要是为了向您展示字符编码为何重要,因此我选择了一个易于使用且看起来更实用的示例。

字符编码,用Java将字节数组转换为字符串
这是我们的示例程序,以说明为什么依赖默认字符编码是一个坏主意,以及为什么在Java中将字节数组转换为String时必须使用字符编码。 在此程序中,我们使用Apache Commons IOUtils类将文件直接读取到字节数组中。 它负责打开/关闭输入流,因此您不必担心泄漏文件描述符。 现在,如何使用该数组创建String是关键。 如果提供正确的字符编码,则将获得正确的输出,否则将获得几乎正确但不正确的输出。

import java.io.FileInputStream;
import java.io.IOException;
import org.apache.commons.io.IOUtils;/*** Java Program to convert byte array to String. In this example, we have first* read an XML file with character encoding "UTF-8" into byte array and then created* String from that. When you don't specify a character encoding, Java uses* platform's default encoding, which may not be the same if file is a XML document coming from another system, emails, or plain text files fetched from an * HTTP server etc. You must first discover correct character encoding* and then use them while converting byte array to String.** @author Javin Paul*/
public class ByteArrayToString{public static void main(String args[]) throws IOException  {System.out.println("Platform Encoding : " + System.getProperty("file.encoding"));FileInputStream fis = new FileInputStream("info.xml");// Using Apache Commons IOUtils to read file into byte arraybyte[] filedata = IOUtils.toByteArray(fis);String str = new String(filedata, "UTF-8");System.out.println(str);}
}Output :
Platform Encoding : Cp1252
<?xml version="1.0" encoding="UTF-8"?>
<banks><bank><name>Industrial & Commercial Bank of China </name><headquarters> Beijing , China</headquarters></bank><bank><name>Crédit Agricole SA</name><headquarters>Montrouge, France</headquarters></bank><bank><name>Société Générale</name><headquarters>Paris, Île-de-France, France</headquarters></bank>
</banks>

永远记住,在将字节数组转换为String的同时使用字符编码不是最佳实践,而是强制性的事情。 无论编程语言如何,都应始终使用它。 顺便说一句,您可以注意以下几点,这将帮助您避免几个讨厌的问题:

  • 使用源代码中的字符编码,例如HTML文件中的Content-Type或<?xml encoding =”…”>。
  • 使用XML解析器来解析XML文件,而不是查找字符编码并通过InputStream读取它,有些事情最好仅用于演示代码。
  • 首选字符集常量,例如StandardCharsets.UTF_16而不是字符串“ UTF-16”
  • 从不依赖平台的默认编码方案

当您将字符数据转换为字节时,也应应用此规则,例如,使用String.getBytes()方法将String转换为字节数组。 在这种情况下,它将使用平台的默认字符编码,而不是使用应采用字符编码的重载版本。

这就是如何在Java中将字节数组转换为String的全部内容。 如您所见,Java API(特别是java.lang.String类)提供了方法和构造函数,这些方法和构造函数采用byte []并返回String(反之亦然),但是默认情况下它们依赖于平台的字符编码,这可能不正确,如果字节数组是根据XML文件,HTTP请求数据或网络协议创建的。 您应该始终从源代码本身获得正确的编码。 如果您想了解更多关于每个程序员都应该知道的字符串是什么,你可以检出该文章。

翻译自: https://www.javacodegeeks.com/2014/09/2-examples-to-convert-byte-array-to-string-in-java.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/361888.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux文件IO-例会笔记总结

上周日实验室例会主要涉及linux文件操作的内核实现。主要讨论了linux下对文件进行操作时&#xff0c;系统内部调用了那些函数以及它们是怎么相互配合的。 linux系统是怎样对不同介质和不同的文件系统提供统一的文件操作接口呢&#xff1f;答案是&#xff1a;VFS。系统中所有文件…

js算法初窥03(搜索及去重算法)

前面我们了解了一些常用的排序算法&#xff0c;那么这篇文章我们来看看搜索算法的一些简单实现&#xff0c;我们先来介绍一个我们在实际工作中一定用到过的搜索算法——顺序搜索。 1、顺序搜索 其实顺序搜索十分简单&#xff0c;我们还是以第一篇文章写好的架子作为基础&#…

nginx try_files流程解析

前端部署单页应用时在nginx上经常用到try_files指令&#xff0c;而对于try_files并不知道其所以然&#xff0c;所以花时间整理总结如下。 Syntax: try_files file … uri; try_files file … code; Default: — Context: server, location 根据root和alias指令提供的值按照tr…

javascript中编码与解码的decodeURI()、decodeURIComponent()区别

1、 定义和用法 decodeURI() 函数可对 encodeURI() 函数编码过的 URI 进行解码。decodeURIComponent() 函数可对 encodeURIComponent() 函数编码的 URI 进行解码。 从W3C的定义和用法来看&#xff0c;两者没有什么区别&#xff0c;但是两者的参数是有区别的&#xff1a;decodeU…

vb 类模拟 引用

引用&#xff1a;http://wenku.baidu.com/view/f434ea26a5e9856a56126008.html Class1中 Option Explicit Public Sub test() Form1.TextForIpAddressAdd.Text "123"End Sub Form1中 Option Explicit Private test As New Class1 Private Sub Form_Load() 初始化 te…

用js来实现那些数据结构12(散列表)

上一篇写了如何实现简单的Map结构&#xff0c;因为东西太少了不让上首页。好吧。。。 这一篇文章说一下散列表hashMap的实现。那么为什么要使用hashMap&#xff1f;hashMap又有什么优势呢&#xff1f;hashMap是如何检索数据的&#xff1f;我们一点一点的来解答。 在我们学习一门…

如何自定义Hibernate脏检查机制

介绍 在上一篇文章中&#xff0c;我描述了Hibernate自动脏检查机制。 尽管您应该始终喜欢它&#xff0c;但是有时您可能想添加自己的自定义污垢检测策略。 自定义脏检查策略 Hibernate提供以下定制机制&#xff1a; 休眠拦截器#findDirty&#xff08;&#xff09; CustomEnt…

读vue【深入响应式系统】后整理

一直以来对vue的依赖自动追踪的原理很感兴趣&#xff0c;像魔法一样。对于交给vue的对象返回后&#xff0c;在哪里使用了这个返回的对象vue会自动追踪&#xff0c;等这个对象改变时vue会自动通知到之前使用改变量的方法&#xff0c;整个过程和react很不一样&#xff0c;react的…

萌新自我介绍

第一次用博客&#xff0c;多有不会&#xff0c;可能向各位大佬请教&#xff0c;谢谢&#xff01;&#xff01;&#xff01;&#xff01;转载于:https://www.cnblogs.com/fakerOrz/p/11194872.html

使用select一个表更新另一个表(批量更新)

update a set a2b.b2, a3b.b3, ... from b where a.a1b.b1 转载于:https://www.cnblogs.com/haver/articles/2244740.html

用js来实现那些数据结构06(队列)

其实队列跟栈有很多相似的地方&#xff0c;包括其中的一些方法和使用方式&#xff0c;只是队列使用了与栈完全不同的原则&#xff0c;栈是后进先出原则&#xff0c;而队列是先进先出&#xff08;First In First Out&#xff09;。 一、队列 队列是一种特殊的线性表&#xff0c…

探索SwitchYard 2.0.0.Alpha2快速入门

在我的最后一篇文章中&#xff0c;我解释了如何在WildFly 8.1上使用SwitchYard。 同时&#xff0c;该项目很忙&#xff0c;并发布了另一个Alpha2。 这是一个很好的机会&#xff0c;在这里浏览快速入门并刷新您的记忆。 除了版本更改之外&#xff0c;您仍然可以使用较早的博客来…

MySQL之触发器

二&#xff1a;触发器 1. 什么是触发器 触发器&#xff0c;是一段与某个表相关的sql语句&#xff0c;会在某个时间点&#xff0c;满足某个条件后自动触发执行 其中两个关键因素&#xff1a; 时间点 * 事件发生前&#xff0c;before|事件发生后 after事件 * update delete inser…

PowerDesigner使用技巧

PowerDesigner使用MySQL的auto_increment   ◇问题描述&#xff1a;   PD怎样能使主键id使用MySQL的auto_increment呢&#xff1f; ◇解决方法&#xff1a;    打开table properties窗口 → columns → 选中id列 → 打开columns properties窗口 → 勾选identity即可   …

走进webpack(1)--环境拆分及模块化

初级的文章和demo已经基本完成了&#xff0c;代码也已经上传到了我的github上&#xff0c;如果你对webpack的使用并不是十分了解&#xff0c;那么建议你回头看下走近系列&#xff0c;里面包括了当前项目中使用频繁的插件&#xff0c;loader的讲解。以及基本的webpack配置&#…

适用于微服务架构的Apache Camel

在知道微服务架构被称为之前&#xff0c;我一直在使用它们。 我曾经使用过由隔离模块组成的管道应用程序&#xff0c;这些模块通过队列相互交互。 从那时起&#xff0c;许多&#xff08;前&#xff09;ThoughtWorks专家讨论了微服务。 首先是 Fred George&#xff0c; 然后是 J…

题解 P3811 【【模板】乘法逆元】

P3811 【模板】乘法逆元 一个刚学数论的萌新&#xff0c;总结了一下这题的大部分做法 //一、费马小定理快速幂 O(nlogn) 64分 #include<cstdio> using namespace std; typedef long long ll; int a,b; inline ll pow(ll x,ll p) {ll ans1;x%b;while(p) {if (p&1) an…

QueryString加密

有些人不想由URL暴露一些訊息&#xff0c;除了可以使用URL Rewrite之外&#xff0c;其實簡便一點的方法還有使用編碼or加密來達到偽裝的目的。使用Base64的原因是因為他的編碼不會有難以接受的特殊字元(註1)&#xff0c;你也可以用其他的編碼or加密算法替代(註2)。其實這邊已經…

即时大数据流处理=即时风暴

在Ubuntu背后的公司Canonical&#xff0c;每6个月进行一次技术工作&#xff0c;以第一手测试我们的工具并向其他人展示新想法。 这次&#xff0c;我创建了一个即时大数据解决方案&#xff0c;更具体地讲是“即时风暴”。 Storm现在是Apache基金会的一部分&#xff0c;但以前St…

webstorm中vue项目--运行配制

## npm搭建的项目&#xff0c;需要运行npm run dev来启动 webstorm作为一款优秀的编辑器&#xff0c;通过配置运行设置&#xff0c;达到一键运行 1.添加node.js配置 2.configuration->node interpreter : 路径/node.exe 3.configuration->working directory&#xff1a; …