2个在Java中将Byte []数组转换为String的示例

将字节数组转换为String似乎很容易,但是很难做到正确。 每当字节转换为String或char时,许多程序员都会犯忽略字符编码的错误,反之亦然。 作为程序员,我们都知道计算机只能理解二进制数据,即0和1。我们看到和使用的所有内容,例如图像,文本文件,电影或任何其他多媒体,都以字节形式存储,但更重要的是是将字节编码或解码为字符的过程。 数据转换是任何编程面试中的重要主题,并且由于字符编码的棘手性,该问题是Java面试中最受欢迎的String Interview问题之一 。 从输入源(例如XML文件,HTTP请求,网络端口或数据库)读取字符串时,必须注意编码它们的字符编码(例如UTF-8,UTF-16和ISO 8859-1)。 如果在将字节转换为String时不使用相同的字符编码,则最终会导致String损坏,其中可能包含完全不正确的值。 您可能已经看到?,在将byte []转换为String之后的方括号,是由于您当前的字符编码不支持这些值,而只是显示了一些垃圾值。

我试图理解为什么程序经常会犯字符编码错误,而我的研究和经验表明,这可能是由于两个原因,首先是国际化和字符编码处理不充分,其次是ASCII字符受支持。几乎所有流行的编码方案都具有相同的值。 由于我们主要处理UTF-8,Cp1252和Windows-1252之类的编码,即使您使用不同的编码方案,它们也会显示ASCII字符(主要是字母和数字)而不会失败。 当您的文本包含特殊字符(例如'é')时 ,真正的问题就来了,这在法语名称中经常使用。 如果平台的字符编码无法识别该字符,那么您将看到一个不同的字符或某种垃圾,并且可悲的是,直到您的手被烫伤为止,您不太可能对字符编码保持谨慎。 在Java中,事情有点棘手,因为默认情况下,许多IO类(例如InputStreamReader)使用平台的字符编码。 这意味着,如果在不同的计算机上运行程序,则由于该计算机上使用的字符编码不同,您可能会获得不同的输出。 在本文中,我们将学习如何通过使用JDK API以及Guava和Apache Commons的帮助, 在Java中将byte []转换为String

在Java中,有多种将字节数组更改为String的方法,您可以使用JDK中的方法,也可以使用开放源代码的补充API,例如Apache Commons和Google Guava。 这些API提供了至少两组方法来创建String形式的字节数组。 一种使用默认平台编码,另一种使用字符编码。 您应该始终使用后面的一种,不要依赖平台编码。 我知道,可能是相同的,或者到目前为止您可能还没有遇到任何问题,但是安全起来总比对不起好。 正如我在上一篇关于将字节数组打印为十六进制字符串的文章中所指出的那样,这也是在将字节转换为任何编程语言的字符时指定字符编码的最佳实践之一。 您的字节数组可能包含不可打印的ASCII字符。 首先让我们看看JDK将byte []转换为String的方式:

  1. 您可以使用String的构造函数,该构造函数采用字节数组和字符编码:
    String str = new String(bytes, "UTF-8");

    这是将字节转换为String的正确方法,前提是您可以确定字节是以您使用的字符编码进行编码的。

  2. 如果要从任何文本文件(例如XML文档,HTML文件或二进制文件)读取字节数组,则可以使用Apache Commons IO库将FileInputStream直接转换为String。 此方法还在内部缓冲输入,因此无需使用其他BufferedInputStream 。
    String fromStream = IOUtils.toString(fileInputStream, "UTF-8");

为了正确地将这些字节数组转换为String,您必须首先通过读取元数据来发现正确的字符编码,例如Content-Type,<?xml encoding =”…”>等,具体取决于所读取数据的格式/协议。 这是我建议使用XML解析器(例如SAX或DOM解析器)读取XML文件的原因之一,它们自己负责字符编码。

一些程序员还建议使用Charset over String来指定字符编码,例如,代替“ UTF-8”使用StandardCharsets.UTF_8主要是为了避免在最坏的情况下出现UnsupportedEncodingException。 保证所有Java平台实现都支持六个标准的Charset实现。 您可以使用它们来代替在String中指定编码方案。 简而言之,始终首选使用StandardCharsets.ISO_8859_1而不是“ ISO_8859_1”,如下所示:

String str = IOUtils.toString(fis,StandardCharsets.UTF_8);

Java平台支持的其他标准字符集是:

  1. StandardCharsets.ISO_8859_1
  2. 标准字符集
  3. 标准字符集.UTF_16
  4. 标准字符集.UTF_16BE
  5. 标准字符集.UTF_16LE

如果您正在从输入流中读取字节,则还可以查看我之前的文章,了解有关在Java中将InputStream转换为String的5种方法 。

原始XML

这是我们的示例XML代码段,以演示使用默认字符编码的问题。 该文件包含字母'é' ,由于默认字符编码为Cp1252 ,因此无法在Eclipse中正确显示

xml version="1.0" encoding="UTF-8"?>
<banks><bank><name>Industrial & Commercial Bank of China </name><headquarters> Beijing , China</headquarters></bank><bank><name>Crédit Agricole SA</name><headquarters>Montrouge, France</headquarters></bank><bank><name>Société Générale</name><headquarters>Paris, Île-de-France, France</headquarters></bank>
</banks>

并且,当您将字节数组转换为String而不指定字符编码时会发生这种情况,例如:

String str = new String(filedata);

这将使用平台的默认字符编码,在这种情况下为Cp1252 ,因为我们正在Eclipse IDE中运行此程序。 您会看到字母“é”显示不正确。

xml version="1.0" encoding="UTF-8"?>
<banks><bank><name>Industrial & Commercial Bank of China </name><headquarters> Beijing , China</headquarters></bank><bank><name>Crédit Agricole SA</name><headquarters>Montrouge, France</headquarters></bank><bank><name>Société Générale</name><headquarters>Paris, Île-de-France, France</headquarters></bank>
</banks>

要解决此问题,请在从字节数组创建String时指定字符编码,例如

String str = new String(filedata, "UTF-8");

顺便说一句,让我说清楚,即使我已经在这里使用InputStream读取XML文件,这也不是一个好习惯,实际上,这是个坏习惯。 您应该始终使用正确的XML解析器来读取XML文档。 如果您不知道如何操作,请查看本教程 。 由于此示例主要是为了向您展示字符编码为何重要,因此我选择了一个易于使用且看起来更实用的示例。

字符编码,用Java将字节数组转换为字符串
这是我们的示例程序,以说明为什么依赖默认字符编码是一个坏主意,以及为什么在Java中将字节数组转换为String时必须使用字符编码。 在此程序中,我们使用Apache Commons IOUtils类将文件直接读取到字节数组中。 它负责打开/关闭输入流,因此您不必担心泄漏文件描述符。 现在,如何使用该数组创建String是关键。 如果提供正确的字符编码,则将获得正确的输出,否则将获得几乎正确但不正确的输出。

import java.io.FileInputStream;
import java.io.IOException;
import org.apache.commons.io.IOUtils;/*** Java Program to convert byte array to String. In this example, we have first* read an XML file with character encoding "UTF-8" into byte array and then created* String from that. When you don't specify a character encoding, Java uses* platform's default encoding, which may not be the same if file is a XML document coming from another system, emails, or plain text files fetched from an * HTTP server etc. You must first discover correct character encoding* and then use them while converting byte array to String.** @author Javin Paul*/
public class ByteArrayToString{public static void main(String args[]) throws IOException  {System.out.println("Platform Encoding : " + System.getProperty("file.encoding"));FileInputStream fis = new FileInputStream("info.xml");// Using Apache Commons IOUtils to read file into byte arraybyte[] filedata = IOUtils.toByteArray(fis);String str = new String(filedata, "UTF-8");System.out.println(str);}
}Output :
Platform Encoding : Cp1252
<?xml version="1.0" encoding="UTF-8"?>
<banks><bank><name>Industrial & Commercial Bank of China </name><headquarters> Beijing , China</headquarters></bank><bank><name>Crédit Agricole SA</name><headquarters>Montrouge, France</headquarters></bank><bank><name>Société Générale</name><headquarters>Paris, Île-de-France, France</headquarters></bank>
</banks>

永远记住,在将字节数组转换为String的同时使用字符编码不是最佳实践,而是强制性的事情。 无论编程语言如何,都应始终使用它。 顺便说一句,您可以注意以下几点,这将帮助您避免几个讨厌的问题:

  • 使用源代码中的字符编码,例如HTML文件中的Content-Type或<?xml encoding =”…”>。
  • 使用XML解析器来解析XML文件,而不是查找字符编码并通过InputStream读取它,有些事情最好仅用于演示代码。
  • 首选字符集常量,例如StandardCharsets.UTF_16而不是字符串“ UTF-16”
  • 从不依赖平台的默认编码方案

当您将字符数据转换为字节时,也应应用此规则,例如,使用String.getBytes()方法将String转换为字节数组。 在这种情况下,它将使用平台的默认字符编码,而不是使用应采用字符编码的重载版本。

这就是如何在Java中将字节数组转换为String的全部内容。 如您所见,Java API(特别是java.lang.String类)提供了方法和构造函数,这些方法和构造函数采用byte []并返回String(反之亦然),但是默认情况下它们依赖于平台的字符编码,这可能不正确,如果字节数组是根据XML文件,HTTP请求数据或网络协议创建的。 您应该始终从源代码本身获得正确的编码。 如果您想了解更多关于每个程序员都应该知道的字符串是什么,你可以检出该文章。

翻译自: https://www.javacodegeeks.com/2014/09/2-examples-to-convert-byte-array-to-string-in-java.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/361888.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux文件IO-例会笔记总结

上周日实验室例会主要涉及linux文件操作的内核实现。主要讨论了linux下对文件进行操作时&#xff0c;系统内部调用了那些函数以及它们是怎么相互配合的。 linux系统是怎样对不同介质和不同的文件系统提供统一的文件操作接口呢&#xff1f;答案是&#xff1a;VFS。系统中所有文件…

用js来实现那些数据结构12(散列表)

上一篇写了如何实现简单的Map结构&#xff0c;因为东西太少了不让上首页。好吧。。。 这一篇文章说一下散列表hashMap的实现。那么为什么要使用hashMap&#xff1f;hashMap又有什么优势呢&#xff1f;hashMap是如何检索数据的&#xff1f;我们一点一点的来解答。 在我们学习一门…

探索SwitchYard 2.0.0.Alpha2快速入门

在我的最后一篇文章中&#xff0c;我解释了如何在WildFly 8.1上使用SwitchYard。 同时&#xff0c;该项目很忙&#xff0c;并发布了另一个Alpha2。 这是一个很好的机会&#xff0c;在这里浏览快速入门并刷新您的记忆。 除了版本更改之外&#xff0c;您仍然可以使用较早的博客来…

走进webpack(1)--环境拆分及模块化

初级的文章和demo已经基本完成了&#xff0c;代码也已经上传到了我的github上&#xff0c;如果你对webpack的使用并不是十分了解&#xff0c;那么建议你回头看下走近系列&#xff0c;里面包括了当前项目中使用频繁的插件&#xff0c;loader的讲解。以及基本的webpack配置&#…

适用于微服务架构的Apache Camel

在知道微服务架构被称为之前&#xff0c;我一直在使用它们。 我曾经使用过由隔离模块组成的管道应用程序&#xff0c;这些模块通过队列相互交互。 从那时起&#xff0c;许多&#xff08;前&#xff09;ThoughtWorks专家讨论了微服务。 首先是 Fred George&#xff0c; 然后是 J…

QueryString加密

有些人不想由URL暴露一些訊息&#xff0c;除了可以使用URL Rewrite之外&#xff0c;其實簡便一點的方法還有使用編碼or加密來達到偽裝的目的。使用Base64的原因是因為他的編碼不會有難以接受的特殊字元(註1)&#xff0c;你也可以用其他的編碼or加密算法替代(註2)。其實這邊已經…

即时大数据流处理=即时风暴

在Ubuntu背后的公司Canonical&#xff0c;每6个月进行一次技术工作&#xff0c;以第一手测试我们的工具并向其他人展示新想法。 这次&#xff0c;我创建了一个即时大数据解决方案&#xff0c;更具体地讲是“即时风暴”。 Storm现在是Apache基金会的一部分&#xff0c;但以前St…

webstorm中vue项目--运行配制

## npm搭建的项目&#xff0c;需要运行npm run dev来启动 webstorm作为一款优秀的编辑器&#xff0c;通过配置运行设置&#xff0c;达到一键运行 1.添加node.js配置 2.configuration->node interpreter : 路径/node.exe 3.configuration->working directory&#xff1a; …

VS2010 自动化整理代码(1)--- VS正则表达替换 PK Vim

自从开始在VS2010的IDE中开始用正则表达式修改 最近为了给Fortran找个好一点的编辑器&#xff0c;又开始使用Vim了。Vim是久负盛名的编辑器之神&#xff0c;可我们习惯了Visual Studio的智能提示等方便的操作&#xff0c;就总在琢磨要是VS 1. VS正则表达替换 PK Vim 这是善用…

2019.7.16考试总结

对于这个狗屎成绩我不想说什么&#xff0c;&#xff0c;&#xff0c;&#xff0c;&#xff0c;前两次考炸也就算了&#xff0c;主要因为不会&#xff0c;这次考成这狗屎&#xff0c;是因为手残眼瘸大脑间歇性抽搐 T1&#xff1a;我是菜鸡&#xff0c;我是蒟蒻&#xff0c;我好菜…

PrimeFaces Extensions中的全新JSF组件

PrimeFaces扩展团队很高兴宣布即将推出的3.0.0主要版本的几个新组件。 我们的新提交人Francesco Strazzullo为该项目提供了“ Turbo Boost”&#xff0c;并带来了至少6个已成功集成的 JSF组件&#xff01; 当前的开发状态是OpenShift上的deployet – 请查看展示柜。以下是有关添…

15 个最新的 CSS3 教程

1. 创建一个漂亮的图标 这个教程将教你如何用纯CSS3创建一个图中的图标2. CSS3 图片样式 这个教程将教你如何使用 box-shadow, border-radius和transition。3. CSS3 Transition 的模糊效果4. 实用的CSS3圆角表格5. 创建纯CSS3的票式标签6. 原始的鼠标浮动效果 这个教程将创建缩…

C++内存管理——指针数组

C/C程序中&#xff0c;指针和数组在不少地方可以相互替换着用&#xff0c;让人产生一种错觉&#xff0c;以为两者是等价的。但二者有着本质的区别&#xff1a;数组&#xff1a;要么在静态存储区被创建(如全局数组)&#xff0c;要么在栈上被创建。数组名对应着&#xff08;而不是…

flex弹性盒子

注意事项 1.设为Flex布局之后&#xff0c;子元素的float&#xff0c;clear和vertical-align属性都讲失效 2.采用Flex布局的元素&#xff0c;称为Flex容器&#xff08;Flex container&#xff09;&#xff0c;所有的子元素成为容器成员&#xff0c;称为Flex项目&#xff08;Fle…

开始JBoss BPM流程的3种基本方法

这一集提示和技巧将帮助您了解根据需要启动流程实例的最佳方法。 规划项目可能包括流程项目&#xff0c;但是您是否考虑过可以启动流程的各种方式&#xff1f; 也许您的JBoss BPM Suite在您的体系结构中本地运行&#xff0c;也许您在云中运行&#xff0c;但是无论它在哪里&am…

用asp.net编写冒泡排序法

这里写了一个冒泡排序的函数. int[] a newint[10] { 12,564,95,44,69,499,693,6746,6496,124}; for(inti0;i<a.Length;i) for(intj i1; j <10; j) { int min a[i]; if (a[i] > a[j]) //升序排列 …

7月17日每日一答

1 什么是闭包函数&#xff0c;闭包函数满足什么样的条件&#xff1f;请写一个常见的闭包函数。 所谓的函数闭包本质是函数的嵌套和高阶函数。我们来看看要实现函数闭包要满足什么条件&#xff08;缺一不可&#xff09;&#xff1a; 1)必须嵌套函数 2)内嵌函数必须引用一个定义在…

BZOJ1706奶牛接力跑

这个东西思路还是不错的。 解法就是把矩阵幂的加法改成取min&#xff0c;乘法改成加法就好&#xff0c;和floyed是一样的。这样的话&#xff0c;矩阵操作一次就相当于松弛了一次最短路。 建矩阵的过程也比较简单&#xff0c;可以离散化&#xff0c;当然下面有另一种更优秀的打法…

EJB 3.x:生命周期和并发模型(第2部分)

这是两部分系列的第二篇。 第一部分介绍了有状态和无状态EJB的生命周期以及并发行为。 在这篇文章中&#xff0c;我将介绍Singleton EJB 。 Singleton模式可以说是最常用&#xff08;有时被滥用&#xff01;&#xff09;的模式。 单吨又爱它&#xff01; Java EE使我们无需编…

MVC2中Area的路由注册实现

今天碰到了一个不可思议的bug&#xff0c;新增的controller中任何action都无法访问&#xff0c;都是返回404错误。一般这种错误要么是拼写错误&#xff0c;要么是不小心给action加了post属性&#xff0c;但是经过初步的排查&#xff0c;没有发现问题。而原有的controller中任何…