Java处理文件BOM头的方式推荐

背景:

java普通的文件读取方式对于bom是无法正常识别的。

   使用普通的InputStreamReader,如果采用的编码正确,那么可以获得正确的字符,但bom仍然附带在结果中,很容易导致数据处理出错。
另外,对于存在BOM头的文件,无法猜测它使用的编码。

目标:

实现一种方式,可对BOM头进行捕捉和过滤

 

解决方案有二:

一、  使用apache的工具类,以BOMStream为例:

    BOMStream,api参考:http://commons.apache.org/io/apidocs/org/apache/commons/io/input/BOMInputStream.html

   该类的构造方式:
   BOMInputStream bomIn = new BOMInputStream(in) //仅能检测到UTF8的bom,且在流中exclude掉bom
   
   BOMInputStream bomIn = new BOMInputStream(in, include); //同上,且指定是否包含

   也可以指定检测多种编码的bom,但目前仅支持UTF-8/UTF-16LE/UTF-16BE三种,对于UTF32之类不支持。
   BOMInputStream bomIn = new BOMInputStream(in, ByteOrderMark.UTF_16LE, ByteOrderMark.UTF_16BE);
   
   有用的方法:
   bomIn.hasBOM()、hasBOM(ByteOrderMask.**)可用于判断当前流中是否检测到了bom。

   读取文件示例:

FileInputStream fis = new FileInputStream(file);  //可检测多种类型,并剔除bom  BOMInputStream bomIn = new BOMInputStream(in, false,ByteOrderMark.UTF-8, ByteOrderMark.UTF_16LE, ByteOrderMark.UTF_16BE);  String charset = "utf-8";  //若检测到bom,则使用bom对应的编码  if(bomIn.hasBOM()){  charset = bomIn.bs.getBOMCharsetName();  }  InputStreamReader reader = new InputStreamReader(bomIn, charset);  ...  


二、使用一个更强大点的工具类(可以支持UTF-8/UTF-16LE/UTF-16BE/UTF-32LE/UTF-32BE):
       

   参考地址:http://koti.mbnet.fi/akini/java/unicodereader/, 下载其中两个文件:UnicodeStream和UnicodeReader

   以UnicodeReader为例:

FileInputStream fis = new FileInputStream(file);  
UnicodeReader ur = new UnicodeReader(fis, "utf-8");  
BufferedReader br = new BufferedReader(ur);  
...  

 

   相较于Apache的工具类,这里的UnicodeReader 支持更多的BOM编码。

   源码解读:

   UnicodeReader 通过PushbackInputStream+InputStreamReader实现BOM的自动检测和过滤读取;

   当没有检测到BOM时,pushback流将回退,并采用构造函数传入的编码进行读取。
   否则使用BOM对应的编码进行读取。

   

  相对来说,第二种方式更加轻量和强大;另外也更加透明,可以随便修改源码来实现自己的需求。

转载于:https://www.cnblogs.com/powerwu/articles/9078052.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/251695.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

封装svg组件

如何封装svg图标组件 封装svg图标组件的方法有很多种,如果只是单纯的想使用svg图标,可以将svg导出fonts字体图标使用,但这样做会失去svg原有的样式与尺寸,也可以当成img图片或者背景引入,但这样做非常繁琐。 最近项目中…

RabbitMQ 延迟队列,消息延迟推送

应用场景 目前常见的应用软件都有消息的延迟推送的影子,应用也极为广泛,例如: 淘宝七天自动确认收货。在我们签收商品后,物流系统会在七天后延时发送一个消息给支付系统,通知支付系统将款打给商家,这个过程…

windows Navicat Premium连接oracle

需要下载并指定Instant Client 下载地址:在oracle官网搜索Instant Client Downloads选择自己需要的客户端 //说明 //Navicat 版本 9 或以上捆绑了 instant client,但是捆绑的用不了,捆绑的10.2。因此下载高版本替换之 //版本有要求&#xff0…

关于arraylist的扩容机制

ArrayList会自动改变size的长度: 首先,ArrayList定义了一个私有的未被序列化的数组elementData,用来存储ArrayList的对象列表(注意只定义未初始):private transient Object[] elementData;   其次&am…

不同级别UI设计师的区别有哪些?

不同等级的UI设计师在工作内容以及基本的薪资待遇方面也是有区别的,很多在UI培训学校学习的小伙伴们并不知道各个等级的UI设计师工作内容有什么差别,那么合肥学码思小编就给大家总结一下这些区别分别表现在哪些方面。 一、初级UI设计师 初级UI设计师的主…

Linux命令行参数前加--,-和不加杠

参数前“-”的表明后面的参数是字符形式。参数前“--”的则表明后面的参数是单词形式。参数前有横的是System V风格。 参数前没有横的是BSD风格。 转载于:https://www.cnblogs.com/YYRise/p/9090476.html

反射笔记-----------------------------

1.反射基本概念: 01.定义: 反射是指在程序运行期间,能够观察和修改类或者类的对象的属性和行为的特性! 02.作用: 001.在运行期间获取类的修饰符,包名,类名,实现的接口,继…

kubernetes 集群部署

kubernetes 集群部署 环境JiaoJiao_Centos7-1(152.112) 192.168.152.112JiaoJiao_Centos7-2(152.113) 192.168.152.113JiaoJiao_Centos7-3(152.114) 192.168.152.114已开通 4C8G80G 集群规划 部署方式 环境准备:基于主机名称通信,时间同步,关…

PHP学习笔记--抽象类和抽象方法的应用

抽象类** 什么是抽象方法?** 定义:如果一个类中的方法,没有方法体的方法就是抽象方法(就是一个方法没有使用{}而直接使用分号结束)* * abstract function test(); //抽象方法* * function test(){ //有方法体…

wordpress 显示数学公式 (MathJax-LaTeX)

blog 不放一堆数学公式怎么能显得高大上,所以 MathJax-LaTeX 也是必装的插件之一了。 一、安装 MathJax-LaTex 插件 直接在 wordpress 插件中,搜索并安装 MathJax-LaTeX 二、安装本地 MathJax 服务 不过由默认的 MathJax cdn 服务经常被墙,所…

长春理工大学第十四届程序设计竞赛(重现赛)F.Successione di Fixoracci

链接:https://ac.nowcoder.com/acm/contest/912/F 题意: 动态规划(Dynamic programming,简称dp)是一种通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。例如,假设小x一步能爬1层或2层台阶,求小x爬n层台阶…

ConstraintLayout

ConstraintLayout使用笔记 具体使用参考:http://blog.csdn.net/guolin_blog/article/details/53122387 ConstraintLayout 好处还是很明显,确实可以减少嵌套。性能对比参阅:http://www.cnblogs.com/liujingg/p/7161319.html 简单嵌套Constrain…

css权重

权重大小 内嵌权重为1000 <p style"color: yellow;">ALEX</p> id选择器的权重为100&#xff0c;类选择器的权重为10&#xff0c;标签选择器的权重为1. /*1 1 1*/ #box1 .wrap2 p{color: red; }当权重一样的时候&#xff0c;是以后设置的属性为准&#xf…

手机两列布局,正方形

手机两列布局&#xff0c;正方形。 直接贴出调试网站的结果&#xff0c;阅读效果还不错。 转载于:https://www.cnblogs.com/blogzhang/p/11002428.html

python(5)- 基础数据类型

一 int 数字类型 #abs(x)      返回数字的绝对值&#xff0c;如abs(-10) 返回 10 # ceil(x)    返回数字的上入整数&#xff0c;如math.ceil(4.1) 返回 5 # cmp(x, y)    如果 x < y 返回 -1, 如果 x y 返回 0, 如果 x > y 返回 1 # exp(x)…

B s

666 转载于:https://www.cnblogs.com/lovelgx/articles/9099239.html

基于HTK的语音拨号系统

为什么80%的码农都做不了架构师&#xff1f;>>> 基于 HTK 的语音拨号系统 Veket NWPU 2011-6-22 目标&#xff1a; 该系统能够识别连续说出的数字串和若干组姓名。建模是针对子词&#xff08; sub-word,eg.. 音素&#xff09;&#xff0c;具有一定的…

MySQL无法重启问题解决Warning: World-writable config file '/etc/my.cnf' is ignored

为什么80%的码农都做不了架构师&#xff1f;>>> 今天帮朋友维护服务器&#xff0c;在关闭数据库的命令发现mysql关不了&#xff0c;提示Warning: World-writable config file /etc/my.cnf is ignored &#xff0c;大概意思是权限全局可写&#xff0c;任何一个用户都…

用户体验分析: 以 “南通大学教务管理系统微信公众号” 为例

基于实例分析&#xff0c;体会用户体验设计的 7 条准则&#xff0c;分析“南通大学教务管理系统微信公众号” 在用户体验设计方面让你觉得满意的地方&#xff08;不少于2点&#xff09;&#xff1b;&#xff08;20分&#xff09;&#xff0c;请陈述理由。 同样&#xff0c;分析…

JVM学习笔记(一):Java内存区域

由于Java程序是交由JVM执行的&#xff0c;所以我们在谈Java内存区域划分的时候事实上是指JVM内存区域划分。在讨论JVM内存区域划分之前&#xff0c;先来看一下Java程序具体执行的过程&#xff1a; 首先Java源代码文件(.java后缀)会被Java编译器编译为字节码文件(.class后缀)&am…