使用juniversalchardet做字符编码识别

为什么80%的码农都做不了架构师?>>>   hot3.png

在抓取网站的页面的时候最烦人的一件事情之一就是识别原站点的编码,通常来说只有GBK(GB2312)和UTF8两种,不过依旧需要读取大量Http头信息来识别,有些网站则由于历史原因两种编码同时存在,导致抓取中的一些问题。于是苦苦寻找,终于找到神器juniversalchardet。

首先引包

<!-- Mozilla的编码识别包 -->
<dependency><groupId>com.googlecode.juniversalchardet</groupId><artifactId>juniversalchardet</artifactId><version>1.0.3</version>
</dependency>

写个简单的Demo(我封装成工具方法了)

import java.io.File;
import java.io.IOException;import looly.github.hutool.FileUtil;
import org.mozilla.universalchardet.UniversalDetector;/*** 编码识别工具类* @author loolly**/
public class CharsetDetectUtil {public static String detect(byte[] content) {UniversalDetector detector = new UniversalDetector(null);//开始给一部分数据,让学习一下啊,官方建议是1000个byte左右(当然这1000个byte你得包含中文之类的)detector.handleData(content, 0, content.length);//识别结束必须调用这个方法detector.dataEnd();//神奇的时刻就在这个方法了,返回字符集编码。return detector.getDetectedCharset();}public static void main(String[] args) throws IOException {byte[] bytes = FileUtil.readBytes(new File("E:/workspace/python/htmlUtil.py"));System.out.println(detect(bytes));}
}

注意

我这个工具方法还是有些可以改进的,官方建议重复利用UniversalDetector对象,可以设置为类属性,不过这时你就要调用detector.reset()方法重置UniversalDetector了(还有就是如果设置为类属性,编码识别这个方法就不是线程安全的了)。

官网上还提到了一个jchardet,是另一个字符编码识别库,只不过比juniversalchardet老一些,速度也比不上后者,所以建议大家使用juniversalchardet。

转载于:https://my.oschina.net/looly/blog/263418

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/461331.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

淘宝开放API,很不错

http://api.taobao.com/myresources/standardSdk.htm?spm0.0.0.0.YeOZMs# 转载于:https://www.cnblogs.com/tandychao/archive/2013/03/01/2938561.html

短线操作总结

今日操作很失败&#xff0c;到嘴的肉都跑了&#xff01;首先是昨日上午买入的保险股&#xff0c;下午领涨&#xff0c;由于是T1的缘故&#xff0c;只能在今天卖&#xff0c;没想到今日保险股全线熄火&#xff0c;走了一波过山车&#xff0c;至尾盘微利&#xff1b;其次是昨天下…

新人报道,写的东西还请大神们多指导!也希望能让和我一样的同事少走弯路。...

大家好&#xff01;我刚工作&#xff0c;经验还很有限&#xff0c;写的东西都是自己在工作过程中遇到的问题&#xff0c;花了很多时间来解决之后的一些总结&#xff0c;可能比较浅显也比较简单&#xff0c;有什么不足的地方还请大家指正&#xff0c;有好的方法也欢迎大家留言&a…

如何用word制作英语答题卡_英语考试答题卡(word 版)

西宁联想教育培训学校西宁联想教育培训学校第1页共1页****学校****考试模拟试卷英语卷(答题卡)(时间&#xff1a;120分钟&#xff0c;满分&#xff1a;120分)姓名&#xff1a;_______________学校&#xff1a;___________________准考证号&#xff1a;________________________…

获取系统信息1——linux系统中的时间

以下内容源于朱有鹏嵌入式课程的学习与整理&#xff0c;如有侵权请告知删除。 一、关于时间的概念 1、GMT时间 GMT是格林尼治时间&#xff0c;即格林尼治地区的当地时间。用格林尼治的当地时间作为全球国际时间&#xff0c;用以描述全球性的事件的时间&#xff0c;方便大家记忆…

hystrix 单独使用_使用Hystrix对Dubbo消费者提供线程隔离保护

在dubbo中对于消费者的保护提供了actives进行并发控制保护&#xff0c;但是功能相对薄弱&#xff0c;下面我们探讨下如何使用Netflix提供的服务容错组件Hystrix对dubo消费者提供线程隔离保护为什么需要Hystrix?在大中型分布式系统中&#xff0c;通常我们需要依赖很多dubbo服务…

二分查找(Binary Search)

1.递归实现 int binarySearchRecursive(int a[],int low,int high,int key){if(low>high)return -(low1);int midlow(high-low)/2;if(key<a[mid])return binarySearchRecursive(a,low,mid-1,key);else if(key > a[mid])return binarySearchRecursive(a,mid1,high,key)…

判断一个字符串是否为回文-链队(新建,进队,出队),链栈(新建,进栈,出栈)...

回文&#xff1a;字符对称排列的字符串&#xff0c;例如ABCBA 思路&#xff1a;根据队&#xff1a;先进先出和栈: 先进后出的原则&#xff0c;进行比较出队和出栈的字符是否相等。如果相等&#xff0c;则为回文。 创建控制台应用程序。 1 #region 字符节点类 2 …

字符设备驱动基础5——驱动如何操控硬件

以下内容源于朱有鹏嵌入式课程的学习与整理&#xff0c;如有侵权请告知删除。 补充内容&#xff1a;字符设备驱动高级篇5——静态映射表、动态映射结构体方式操作寄存器 前言 上节字符设备驱动基础4——读写接口的操作实践中&#xff0c;驱动源代码中的test_chrdev_open()、te…

Android----使用代码 建立gprs 闹钟 连接

Android&#xff1a;实用代码&#xff08;开启启动、建立GPRS连接、闹钟等&#xff09; 分类&#xff1a; Android2012-04-21 18:06312人阅读评论(0)收藏举报androidactionstringservice手机j2me1&#xff1a;查看是否有存储卡插入String statusEnvironment.getExternalStorage…

句法依存分析_复旦大学邱锡鹏教授:词法、句法分析研究进展综述

本文为第十六届自然语言处理青年学者研讨会 YSSNLP2019 报告《词法、句法分析研究进展综述》的简要文字整理&#xff0c;本报告主要回顾词法、句法领域的最新研究进展。 关于报告人&#xff1a;邱锡鹏&#xff0c;复旦大学计算机科学技术学院副教授&#xff0c;博士生导师。于复…

【struts2】Struts2的运行流程

1&#xff09;前提条件 在讲解流程之前&#xff0c;假设我们已经建立了的一个名为strutsDeepen的web工程&#xff0c;该工程仅仅实现了简单的用户登陆与欢迎界面。具体的实现为&#xff1a; 在web.xml中配置了Struts2的过滤器写了一个Action类&#xff0c;名称为loginAction在s…

获取系统信息2——linux中使用随机数

以下内容源于朱有鹏嵌入式课程的学习与整理&#xff0c;如有侵权请告知删除。 一、随机数和伪随机数 随机数是随机出现&#xff0c;没有任何规律的一组数列。真正的完全随机的数列是不存在的&#xff0c;只是一种理想情况。我们一般只能通过一些算法得到一个伪随机数序列。平时…

11. 类对象简介

11. 类对象简介1.1 类是一个模板&#xff0c;是一种类型&#xff0c;“物以类聚”1.2 对象是类的一个具体实现1.3例如&#xff1a;汽车模型和生产出来的汽车猫和我家的那只猫1.4 实例人骑车public class Test3{public static void main(String[] args){Person p new Person();…

python 建筑计算_制图小技巧:巧用Python和ELK瞬间完成总图建筑名称标注

哎呦&#xff0c;又到了每周一次的制图教室啦。经过前面两次制图教程的分享&#xff0c;相信大家对于白模填色和写实渲染这两种表达方式肯定有了较好的掌握。那么今天我们就转战制图技巧篇&#xff0c;和童鞋们聊一下总平面图中的建筑名称标注问题。对于总平面图&#xff0c;各…

在MacOSX上重新安装Python (10.8) python 自然语言处理的前戏

因为想学python自然语言处理就想在mac上重新配置一下python。 在网上找了很久才找到两篇有用的教程http://765i.cn/%E5%9C%A8macosx%E4%B8%8A%E9%87%8D%E6%96%B0%E5%AE%89%E8%A3%85python-10-8/ http://woodpecker.org.cn/diveintopython3/installing-python.html 第一篇文章基…

获取系统信息3——proc文件系统介绍和使用

以下内容源于朱有鹏嵌入式课程的学习与整理&#xff0c;如有侵权请告知删除。 一、proc文件系统介绍 1、操作系统级别的调试一般很困难 简单的程序可以单步调试&#xff1b;复杂一点的程序可以printf、cout等打印信息调试&#xff08;即输出信息到控制台&#xff09;&#xff0…

阻止函数源码在控制台输出

这是一个很贱的技能&#xff0c;我在谷歌控制台源码里看到的。相信大家都知道&#xff0c;在控制台里只输入函数名&#xff0c;不输入 () 然后按回车&#xff0c;就可以输出源码。 都不会陌生吧&#xff0c;这也有助于我们调试&#xff0c;是个很棒的技巧。不过系统内置的就会输…

值不值得入手_iPhone11现在还值不值得入手?真实用户说出心里话

iPhone11作为苹果走量的一款机型&#xff0c;自发布以来就备受争议&#xff0c;有的朋友说真香&#xff0c;A13iOS只卖4000多&#xff0c;还有的朋友吐槽大黑边、828P的屏幕、信号不好还有充电太慢&#xff0c;特别是现在同价位能买到的安卓旗舰&#xff0c;要5G有5G、要高刷新…

设备驱动,字符设备驱动、(总线)设备驱动模型、sysfs文件系统、平台设备驱动

以下内容转载于微信公众号&#xff1a;嵌入式企鹅圈。如有侵权&#xff0c;请告知删除。 学习Linux设备驱动开发的过程中自然会遇到字符设备驱动、平台设备驱动、设备驱动模型和sysfs等相关概念和技术。 对于初学者来说会非常困惑&#xff0c;甚至对Linux有一定基础的工程师而言…