【转】为什么不能使用字符流读取非文本的二进制文件?

读取文件

刚学Java的IO流部分时,书上说只能使用字节流去读取图片、视频等非文本二进制文件,不能使用字符流,否则文件会损坏。所以我就一直记住这一点了,但是为什么不能使用,这一直是我的一个疑惑。今天,我又想到了这个问题,所以干脆就一鼓作气把它解决了吧。

先来看一个关于图片复制的代码示例:
注意:我的电脑是存在 D:/DB这个路径的,如果你没有,DB这个文件夹,必须建立一个。

package dragon;import java.io.BufferedInputStream;
import java.io.BufferedOutputStream;
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStreamReader;
import java.nio.file.Path;
import java.nio.file.Paths;public class ReadImage {public static void main(String[] args) throws IOException {String imgPath = "D:/DB/husky/kkk.jpeg";String byteImgCopyPath = "D:/DB/husky/byteCopykkk.jpeg";String charImgCopyPath = "D:/DB/husky/charCopykkk.jpeg";Path srcPath = Paths.get(imgPath);Path desPath1 = Paths.get(byteImgCopyPath);Path desPath2 = Paths.get(charImgCopyPath);byteRead(srcPath.toFile(), desPath1.toFile());System.out.println("字节复制执行成功!");characterRead(srcPath.toFile(), desPath2.toFile());System.out.println("字符复制执行成功!");}static void byteRead(File src, File des) throws IOException {try (BufferedInputStream bis = new BufferedInputStream(new FileInputStream(src));BufferedOutputStream bos = new BufferedOutputStream(new FileOutputStream(des))) {int hasRead = 0;byte[] b = new byte[1024];while ((hasRead = bis.read(b)) != -1) {bos.write(b, 0, hasRead);}}}static void characterRead(File src, File des) throws IOException {try (BufferedReader reader = new BufferedReader(new InputStreamReader(new FileInputStream(src), "UTF-8"));BufferedWriter writer = new BufferedWriter(new FileWriter(des))) {int hasRead = 0;char[] c = new char[1024];while ((hasRead = reader.read(c)) != -1) {writer.write(c, 0, hasRead);}}}
}

运行结果:
可见,使用字符流确实无法读取图片这样的二进制文件,必须使用字节流。
在这里插入图片描述

图片大小变化:
可见,使用字符流后图片大小变化了,使用字节流则不会。
在这里插入图片描述

为什么会这样呢?

通过上面那个例子,我们可以看到确实是无法使用字符流复制文件,并且使用字符流复制文件后,文件的大小也会变化,这就引出我们今天要讨论的标题了。

我们先来想一想,为什么文本文件打开可以显示文字?
我们都知道计算机处理的文件无论是文本还是非文本的文件,最终在计算机内部都是以二进制的形式存储的。

使用文本编辑器的16进制模式打开一个文本文件:
在这里插入图片描述

使用编辑器的16进制模式打开上面程序使用的图片文件:
在这里插入图片描述

对比两张图片中的数据,应该发现不了什么区别吧,但是为什么文本数据就可以显示出文字呢?这是一个非常基础的问题,大学里面的基础课都是讲过这方面的内容–字符编码表
我最开始学习的是 C 语言,接触最早的编码表是 ASCII(美国信息交换标准代码),后来学习java接触的是 Unicode(万国码,这个名字和它的起源很契合。我们目前最常使用的是UTF-8,是针对Unicode的一种可变长度字符编码。)

注意:
使用 UTF-8 也是分为含有 BOM(Byte Order Mark,字节顺序标记) 和 没有的两种形式,而且混用会导致错误,感兴趣的可以去了解一下。
在这里插入图片描述

字符编码表的作用体现在编码上,引述百科的一段话:

在显示器上看见的文字、图片等信息在电脑里面其实并不是我们看见的样子,即使你知道所有信息都存储在硬盘里,把它拆开也看不见里面有任何东西,只有些盘片。假设,你用显微镜把盘片放大,会看见盘片表面凹凸不平,凸起的地方被磁化,凹的地方是没有被磁化;凸起的地方代表数字1,凹的地方代表数字0。硬盘只能用0和1来表示所有文字、图片等信息。那么字母”A”在硬盘上是如何存储的呢?可能小张计算机存储字母”A”是1100001,而小王存储字母”A”是11000010,这样双方交换信息时就会误解。比如小张把1100001发送给小王,小王并不认为1100001是字母”A”,可能认为这是字母”X”,于是小王在用记事本访问存储在硬盘上的1100001时,在屏幕上显示的就是字母”X”。也就是说,小张和小王使用了不同的编码表。

所以字符编码表就是二进制数字和字符之间的一个一一映射,例如 65 (数字)代表 A,所以下面这段代码会在屏幕上输出 A。

char c = 65;
System.out.println(c);

我们使用一个循环来测试一下:

char c = 0;
for (int i  = 9999; i < 10009; i++) {c = (char) i;System.out.print(c+" ");
}

测试结果:(当然了,这个取决于你的当前的字符编码表,如果使用 ASCII,估计就有意思了。)
在这里插入图片描述

这样就解释了前面那个问题(为什么文本文件打开可以显示文字?),我们之所以可以看见文本文件的字符是因为计算机按照我们文件的编码(ASCII、UTF-8或者GBK等),从字符编码表中找出来对应的字符。 所以,当我们使用记事本打开二进制文件会看到乱码,这就是原因。文件的复制过程也是复制的二进制数据,而不是真实的文字。

因此可以这样理解文件复制的过程:
字符流:二进制数据 --编码-> 字符编码表 --解码-> 二进制数据
字节流:二进制数据 —> 二进制数据

所以问题就是出现在编码和解码的过程中,既然是字符的编码表,那它就是包含所有的字符,但是字符的数量是有限的,这就意味着它不能表示一些超过编码表的字符,因为根本不存在表中。所以,JVM 会使用一些字符进行替换,基本上都是乱码(所以大小会发生变化),而且如果有一个数据恰好是-1,那么读取就会中断,引起数据丢失。



例如如下代码使用字符流读取就会错误:

	String filename = "D:/DB/fos.txt";     //文件名byte[] b = new byte[] {-1, -1};      //两个字节,127的二进制就是 1111 1111//数据写入文件try (FileOutputStream fos = new FileOutputStream(filename)) {fos.write(b, 0, b.length);  //将两个127连续写入,就是 1111 1111 1111 1111}File file = new File(filename);//输出文件的大小System.out.println("file length: " + file.length());char[] c = new char[2];//使用字符流读取文件try (FileReader reader = new FileReader(filename)) {int count = reader.read(c);    //Java使用Unicode编码,读取的是从 0-65535 之间的数字。System.out.println("以文本形式输出:" + new String(c, 0, count)+"   "+count);for (char d : c) {  System.out.println("字符为:" + d);}}System.out.println("表示字符:" + c[0]);//再写入文件try (FileWriter writer = new FileWriter(filename)) {writer.write(c, 0, 2);}File f = new File(filename);System.out.println("file length: " + f.length());

结果:
在这里插入图片描述



说明:
我将两个1字节的-1写入(字节流)了文本文件(注意是字节:-1,不是字符:-1),然后再读取(字符流),再写入(字符流)就已经出现了问题。读取出的字符显示了一个奇怪的符号,而且它的值为:65533,这个值如果用字节表示的话,一个字节是不够的,所以文件的大小就会变化。在非文本的二进制数据中,出现这种情况都是正常的,因为本来就不是按照字符编码的。

因为字符都是正数,而非字符编码的话,字节数可能是负数(很可能),但是负数在字符看来就是正数,这也是为什么-1,被读成 65533的原因。可以看出来,读取就已经错误了。

注意: 这里的重点是对于使用字符流读取非文本文件,在读取-写入的过程中的问题。



总结

这个问题算是基本解决了,如果想要了解更多,估计需要阅读一些专业的书籍才行了,不过到了这一步,我觉得已经可以了。它也要求我们掌握关于计算机的一些基本的入门知识了。虽然这个问题拖了很久才解决,但是也是因为我最近开始使用Java的IO流进行编程,以前的话,只是记住了那句话,但是动手实践却没有去做,这也是应该多动手编程、多积累才能解决问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/436812.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql更新一条语句_MySQL一条更新语句是如何执行的

一条查询语句是经过连接器 分析器 优化器 执行器等功能模块&#xff0c;最后到达存储引擎。image以下所说的都基于InnoDb引擎。当有一条记录需要更新的时候&#xff0c;InnoDB引擎会先把记录写到redo log里面&#xff0c;并更新内存&#xff0c;这个时候更新就算完成了。InnoDb…

【转】文本文件和二进制文件区别及java中字节流和字符流归纳

首先在物理上文本文件和二进制文件并没有区别&#xff0c;都是以二进制&#xff10;&#xff11;的形式存放于存储介质中&#xff0c;他们的区别只是逻辑上的区别&#xff0c;这两种方式只是在编码层次上有差别。文本文件是基于字符编码的文件&#xff0c;常见的编码有ASCII编码…

mysql查询后从高到低排序_[MySQL基础]三、排序查询

排序查询语法&#xff1a;SELECT查询列表FROM表[WHERE 筛选条件]ORDER BY 排序列表 [ASC|DESC]; #[ ]中的内容表示可选特点&#xff1a;asc代表的是升序&#xff0c;desc代表的是降序&#xff0c;如果不写&#xff0c;默认是升序order by子句中可以支持单个字段、多个字段、表达…

【转】如何判断一个文本文件内容的编码格式 UTF-8 ? ANSI(GBK)

转自&#xff1a;http://blog.csdn.net/jiangqin115/article/details/42684017 UTF-8编码的文本文档&#xff0c;有的带有BOM (Byte Order Mark, 字节序标志)&#xff0c;即0xEF, 0xBB, 0xBF&#xff0c;有的没有。Windows下的txt文本编辑器在保存UTF-8格式的文本文档时会自动…

cesium获取模型实时坐标_Cesium 顶点着色器中求解模型坐标

1. 由世界坐标转模型坐标顶点着色器&#xff1a;attribute vec3 position3DHigh;attribute vec3 position3DLow;attribute vec3 normal;attribute vec2 st;attribute float batchId;varying vec3 v_positionEC;varying vec3 v_normalEC;varying vec2 v_st;void main(){vec3 pos…

【转】关于CLR内存管理一些深层次的讨论[上篇]

半年之前&#xff0c;PM让我在部门内部进行一次关于“内存泄露”的专题分享&#xff0c;我为此准备了一份PPT。今天无意中将其翻出来&#xff0c;觉得里面提到的关于CLR下关于内存管理部分的内存还有点意思。为此&#xff0c;今天按照PPT的内容写了一篇文章。本篇文章不会再讨论…

mysql数据库连接地址utf8_在Python中连接到MySQL数据库时UTF8不工作

我正在努力使Python更好地使用UTF-8编码的MySQL数据库&#xff0c;例如&#xff0c;挪威字符。我找了好几个小时&#xff0c;但没能找到像预期的那样有效的东西。以下是从数据库中提取的示例表&#xff1a;mysql> select * from my_table;---------------------| id | shop_…

【转】.NET Remoting

.Net Remoting提供了一种允许一个应用域中的对象与另一个应用域中的对象进行交互的框架。是.NET框架中的一个重要技术改进,它用于减轻运行应用程序的系统开销. 中文名 .Net Remoting 作 用 减轻运行应用程序的系统开销 目录 1 介绍2 .NET Remoting的原理 ▪ 1.NET Rem…

python多重赋值技巧_python教程12课:多元赋值、多重赋值、运算符以及判断字符串类型...

# 多元赋值&#xff1a;# x,y,z 和 1,2,‘String是两个元组&#xff0c;只不过元组的 () 被省略掉了x, y ,z 1, 2, Stringprint(x, y, z)(x, y ,z) (3, 4, String)print(x,y,z)# 一般用在交换变量值#交换变量值常规思路x 10,y 20z 30x ,y, z y,z,xprint(x,y,z)#使用多元赋值…

【转】关于CLR内存管理一些深层次的讨论[下篇]

《上篇》中我们主要讨论的是程序集&#xff08;Assembly&#xff09;和应用程序域&#xff08;AppDomain&#xff09;的话题&#xff0c;着重介绍了两个不同的程序集加载方式——独占方式和共享方式&#xff08;中立域方式&#xff09;&#xff1b;以及基于进程范围内的字符串驻…

python正则表达式处理txt_Python文本处理服务(re正则表达式例子)

正则表达式例子检查对子在此示例中&#xff0c;我们将使用以下帮助函数来更优雅地显示匹配对象&#xff1a;def displaymatch(match): if match is None: return None return % (match.group(), match.groups())假设你在写一个扑克程序&#xff0c;一个玩家的一手…

【转】深入浅出图解C#堆与栈 C# Heap(ing) VS Stack(ing) 第一节 理解堆与栈

理解堆与栈 导航 深入浅出图解C#堆与栈 C# Heap(ing) VS Stack(ing) 第一节 理解堆与栈 深入浅出图解C#堆与栈 C# Heap(ing) VS Stack(ing) 第二节 栈基本工作原理 深入浅出图解C#堆与栈 C# Heap(ing) VS Stack(ing) 第三节 栈与堆&#xff0c;值类型与引用类型 深入浅出图…

bi 存储过程方案_BI 系统中容易被忽视的数据源功能

BI 系统中容易被忽视的数据源功能用户在选购 BI 解决方案的时候&#xff0c;常常会更关注界面环节的功能指标&#xff0c;比如美观性、操作的流畅性、移动端支持等等。毕竟&#xff0c;BI 是要给业务人员使用的&#xff0c;这些看得见的内容一般不容易被遗漏。然而&#xff0c;…

【转】深入浅出图解C#堆与栈 C# Heap(ing) VS Stack(ing) 第二节 栈基本工作原理

栈基本工作原理 导航 深入浅出图解C#堆与栈 C# Heap(ing) VS Stack(ing) 第一节 理解堆与栈 深入浅出图解C#堆与栈 C# Heap(ing) VS Stack(ing) 第二节 栈基本工作原理 深入浅出图解C#堆与栈 C# Heap(ing) VS Stack(ing) 第三节 栈与堆&#xff0c;值类型与引用类型 深入浅…

matlab将二值图像与原图重叠_图像处理matlab及图像融合图像镶嵌图像拼接

要把double的图像(范围是0到1)再次转化为256灰度值的&#xff0c;可以这样Igrey uint8(I2*255)图像类型转换函数&#xff1a;dither() 通过颜色抖动&#xff0c;把真彩图像转换成索引图像或灰度图象转换成二值图像gray2ind() 将灰度图像(或二值图像)转换成索引图像grayslice() …

【转】深入浅出图解C#堆与栈 C# Heap(ing) VS Stack(ing) 第三节 栈与堆,值类型与引用类型

前言 虽然在.Net Framework 中我们不必考虑内在管理和垃圾回收(GC)&#xff0c;但是为了优化应用程序性能我们始终需要了解内存管理和垃圾回收(GC)。另外&#xff0c;了解内存管理可以帮助我们理解在每一个程序中定义的每一个变量是怎样工作的。 简介 本文将介绍值类型与引用类…

mysql udf sm4_SM4国密算法Java版

根据 国密SM4 文档 编写的一个Java 加密解密样例package javasm4;/**** author Jeen*/public class JavaSM4 {public static int[] key new int[4];//密钥public static int[] temp new int[4];//中间量 存储运算结果public static int[] rkey new int[32];//轮密钥public s…

【转】.net框架读书笔记---CLR内存管理\垃圾收集(一)

一、垃圾收集平台基本原理解析 在C#中程序访问一个资源需要以下步骤&#xff1a; 调用中间语言&#xff08;IL&#xff09;中的newobj指令&#xff0c;为表示某个特定资源的类型实例分配一定的内存空间。初始化上一步所得的内存&#xff0c;设置资源的初始状态&#xff0c;从而…

gperftools mysql_利用 gperftools 对nginx mysql 内存管理 性能优化

利用 gperftools 对nginx 与 mysql 进行 内存管理 性能优化 降低负载.Gperftools 是由谷歌开发。官方对gperftools 的介绍为&#xff1a;These tools are for use by developers so that they can create more robust applications. Especially of use to those developing m…

【转】.net框架读书笔记---CLR内存管理\垃圾收集(二)

前几天学习了CLR垃圾收集原理和基本算法&#xff0c;但是那些是仅仅相对于托管堆而言的&#xff0c;任何非托管资源的类型&#xff0c;例如文件、网络资源等&#xff0c;都必须支持一种称为终止化&#xff08;finalization&#xff09;的操作。 终止化 终止化操作允许一种资源…