iconv 判断字符编码_GBK 和 UTF8编码

相关学习内容:

https://study.163.com/course/courseMain.htm?courseId=1210747815&share=2&shareId=480000002227524​study.163.com9节课征服「字符编码」 - 网易云课堂9节课征服「字符编码」 - 网易云课堂​study.163.com

6c1b0ceb35d0f457eaf424cbeb459f2d.png

首先来看一下常用的编码有哪些,截图自Notepad++。其中ANSI在中国大陆即为GBK(以前是GB2312),最常用的是 GBK 和 UTF8无BOM 编码格式。后面三个都是有BOM头的文本格式,UCS-2即为人们常说的Unicode编码,又分为大端、小端。

所谓BOM头(Byte Order Mark)就是文本文件中开始的几个并不表示任何字符的字节,用二进制编辑器(如bz.exe)就能看到了。

  1. UTF8的BOM头为 0xEF 0xBB 0xBF
  2. Unicode大端模式为 0xFE 0xFF
  3. Unicode小端模式为 0xFF 0xFE

b3399400e80b8cf3ff73935af5f30ed3.png

何为GBK,何为GB2312,与区位码有何渊源?

区位码是早些年(1980)中国制定的一个编码标准,如果有玩过小霸王学习机的话,应该会记得有个叫做“区位”的输入法(没记错的话是按F4选择)。就是打四个数字然后就出来汉字了,什么原理呢。请看下面的区位码表,每一个字符都有对应一个编号。其中前两位为“区”,后两位为“位”,中文汉字的编号区号是从16开始的,位号从1开始。前面的区号有一些符号、数字、字母、注音符号(台)、制表符、日文等等。

而GB2312编码就是基于区位码的,用双字节编码表示中文和中文符号。一般编码方式是:0xA0+区号,0xA0+位号。如下表中的 “安”,区位号是1618(十进制),那么“安”字的GB2312编码就是 0xA0+16 0xA0+18 也就是 0xB0 0xB2 。根据区位码表,GB2312的汉字编码范围是0xB0A1~0xF7FE

区位码表节选

a8f0c81462857edc64edbba30789ba08.png

5a81d5a11b7e86decfabdaf2bab03b9d.png

可能大家注意到了,区位码里有英文和数字,按道理说是不是也应该是双字节的呢。而一般情况下,我们见到的英文和数字是单字节的,以ASCII编码,也就是说现代的GBK编码是兼容ASCII编码的。比如一个数字2,对应的二进制是0x32,而不是 0xA3 0xB2。那么问题来了,0xA3 0xB2 又对应到什么呢?还是2(笑)。注意看了,这里的2跟2是不是有点不太一样?!确实是不一样的。这里的双字节2是全角的二,ASCII的2是半角的二,一般输入法里的切换全角半角就是这里不同。

如果留意过早些年的手机(功能机),会发现人名中常见的“燊”字是打不出来的。为什么呢?因为早期的区位码表里面并没有这些字,也就是说早期的GB2312也是没有这些字的。到后来的GBK(1995)才补充了大量的汉字进去,当然现在的安卓苹果应该都是GBK字库了。再看看这些补充的汉字的字节码 燊 0x9F 0xF6 。和前面说到的GB2312不同,有的字的编码比 0xA0 0xA0 还小,难道新补充的区位号还能是负的??其实不然,这次的补充只补充了计算机编码表,并没有补充区位码表。也就是说区位码表并没有更新,用区位码打字法还是打不出这些字,而网上的反向区位码表查询也只是按照GBK的编码计算,并不代表字与区位号完全对应。时代的发展,区位码表早已经是进入博物馆的东西了。

Big5是与GB2312同时期的一种台湾地区繁体字的编码格式。后来GBK编码的制定,把Big5用的繁体字也包含进来(但编码不兼容),还增加了一些其它的中文字符。细心的朋友可能还会发现,台湾香港用的繁体字(如KTV里的字幕)跟大陆用的繁体字还有点笔画上的不一样,其实这跟编码无关,是字体的不同,大陆一般用的是宋体楷体黑体,港澳台常用的是明体(鸟哥Linux私房菜用的是新細明體)。GBK总体编码范围为0x8140~0xFEFE,首字节在 0x81~0xFE 之间,尾字节在 0x40~0xFE 之间,剔除 xx7F 一条线。详细编码表可以参考这个列表。微软Windows安排给GBK的code page(代码页)是CP936,所以有时候看到编码格式是CP936,其实就是GBK的意思。2000年和2005年,国家又先后两次发布了GB18030编码标准,兼容GBK,新增四字节的编码,但比较少见。

同一个编码文件里,怎么区分ASCII和中文编码呢?从ASCII表我们知道标准ASCII只有128个字符,0~127即0x00~0x7F(0111 1111)。所以区分的方法就是,高字节的最高位为0则为ASCII,为1则为中文。

UTF8编码 与 Unicode编码

GBK是中国标准,只在中国使用,并没有表示大多数其它国家的编码;而各国又陆续推出各自的编码标准,互不兼容,非常不利于全球化发展。于是后来国际组织发行了一个全球统一编码表,把全球各国文字都统一在一个编码标准里,名为Unicode。很多人都很疑惑,到底UTF8与Unicode两者有什么关系?如果要类比的话,UTF8相当于GB2312,Unicode相当于区位码表,不同的是它们之间的编号范围和转换公式。那什么是原始的Unicode编码呢?如果你用过PHP的话,json_encode函数默认会把中文编码成为Unicode,比如“首发于博客园”就会转码成“u9996u53d1u4e8eu535au5ba2u56ed”。可以看到每个字都变成了 uXXXX 的形式,这个就是文字的对应Unicode编码,u表示Unicode的意思,网上也有用U+表示unicode。现行的Unicode编码标准里,绝大多数程序语言只支持双字节。英文字母、标点也收纳在Unicode编码中。有兴趣的可以在站长工具里尝试“中文转Unicode”,可以得到你输入文字的Unicode编码。

因为英文字符也全部使用双字节,存储成本和流量会大大地增加,所以Unicode编码大多数情况并没有被原始地使用,而是被转换编码成UTF8。下表就是其转换公式:

6615857cb1e36c30c8a6b96063611998.png

第一种:Unicode从 0x0000 到 0x007F 范围的,是不是有点熟悉?对,其实就是标准ASCII码里面的内容,所以直接去掉前面那个字节 0x00,使用其第二个字节(与ASCII码相同)作为其编码,即为单字节UTF8。

第二种:Unicode从 0x0080 到 0x07FF 范围的,转换成双字节UTF8。

第三种:Unicode从 0x8000 到 0xFFFF 范围的,转换成三字节UTF8,一般中文都是在这个范围里。

第四种:超过双字节的Unicode目前还没有广泛支持,仅见emoji表情在此范围。

例如“博”字的Unicode编码是u535a。0x535A在0x0800~0xFFFF之间,所以用3字节模板 1110yyyy 10yyyyxx 10xxxxxx。将535A写成二进制是:0101 0011 0101 1010,高八位分别代替y,低八位分别代替x,得到 11100101 10001101 10011010,也就是 0xE58D9A ,这就是博字的UTF8编码。

前面提到,GBK的编码里英文字符有全角和半角之分,全角为GBK的标准编码过的双字节2,半角为ASCII的单字节2。那现在UTF8是全部用一个公式,理论上只有半角的2的,怎么支持全角的2呢?哈哈,结果是Unicode为中国特色的全角英文字符也单独分配了编码,简单粗暴。比如全角的2的Unicode编码是 uFF12,转换到UTF8就是 0xEFBC92。

文章开头有说到 UCS-2,其实UCS-2就是原始的双字节Unicode编码,用二进制编辑器打开UCS-2大端模式的文本文件,从左往右看,看到的就是每个字符的Unicode编码了。至于什么是大端小端,就是字节的存放顺序不同,这一般是嵌入式编程的范畴。

如何区分一个文本是无BOM的UTF8还是GBK

前面说到的几种编码,其中有的是有BOM头的,可以直接根据BOM头区分出其编码。有两个是没有BOM头的,UTF8和GBK,那么两者怎么区分呢?答案是,只能按大量的编码分析来区分。目前识别准确率很高的有:Notepad++等一些常用的IDE,PHP的mb_系列函数,python的chardet库及其它语言衍生版如jchardet,jschardet 等(请自行github)。

那么这些库是怎么区分这些编码的呢?那就是词库,你会看到库的源码里有大量的数组,其实就是对应一个编码里的常见词组编码组合。同样的文件字节流在一个词组库里的匹配程度越高,就越有可能是该编码,判断的准确率就越大。而文件中的中文越少越零散,判断的准确率就越低。

关于ASCII

文中多次提及ASCII编码,其实这应该是每个程序员都非常熟悉、认真了解的东西。对于嵌入式开发的人来说,应该能随时在字符与ASCII码中转换,就像十六进制与二进制之间的转换一样。标准ASCII是128个,范围是0x00~0x7F (0000 0000~0111 0000) ,最高位为0。也有一个扩展ASCII码规则,把最高位也用上了,变成256个,但是这个扩展标准争议很大,没有得到推广,应该以后不会得到推广。因为无论是GBK还是UTF8,如果ASCII字符编码最高位能为1都会造成混乱无法解析。

以GBK为例,如果ASCII的字符最高位也能是1,那么是应该截取一个解析为ASCII呢?还是截取两个解析为中文字符?这根本无法判断。UTF8也是同理,遇到 0xxx 开头则截取一个(即为标准ASCII), 遇到 110x 开头则截取两个,遇到 1110 开头则截取三个,如果ASCII包含1开头的,则无法确定何时截取多少个。

在哪里还能一睹扩展ASCII的真容呢?其实很简单,只要把网页的meta改成ASCII就行了 <meta charset="ASCII" /> 。又或者浏览器的编码选择“西方”,即可见到与平常所见不同的乱码。(截图为火狐)

b6b8ffa12b709169b2e8f2727692e0b5.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/571308.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

完美粉红噪声及各种声波测试软件,粉红噪声的测试原理

粉红噪声。既然是噪声就绝对不是单纯的纯音&#xff0c;它是一种频率覆盖范围很宽的声音。低频能下降到接近0Hz(不包括0Hz)高频端能上到二十几千赫&#xff0c;而且它在等比例带宽内的能量是相等的(误差只不过0.1dB左右)。比如用1/3oct带通滤波器去计算分析&#xff0c;我们会发…

catia怎么进入装配_CATIA教程之常见去参方法

Catia去除参数常用于以下几种情形&#xff1a;1)模型比较大&#xff0c;通过邮件发送不方便&#xff0c;去除模型参数可以减小模型数据大小。2)有时候需要将模型给别人使用&#xff0c;不希望对方知道你的建模过程或者更改你的模型&#xff0c;为了保密或者保护自己&#xff0c…

beeline执行sql文件_MyBatis的SQL执行流程不清楚?看完这一篇就够了

前言MyBatis可能很多人都一直在用&#xff0c;但是MyBatis的SQL执行流程可能并不是所有人都清楚了&#xff0c;那么既然进来了&#xff0c;通读本文你将收获如下&#xff1a;1、Mapper接口和映射文件是如何进行绑定的2、MyBatis中SQL语句的执行流程3、自定义MyBatis中的参数设置…

Git 下载、安装与SSH配置

一、Git学习笔记&#xff08;基于Github&#xff09; Git简介 Git是目前流行的分布式版本管理系统。它拥有两套版本库&#xff0c;本地库和远程库&#xff0c;在不进行合并和删除之类的操作时这两套版本库互不影响。也因此其近乎所有的操作都是本地执行&#xff0c;所以在断网的…

windows7未能启动怎么修复计算机,win7系统提示windows无法启动这个硬件设备怎么办...

‍‍最近有很多深度技术win7用户在打开视频、光驱很有usb的时候&#xff0c;电脑出现了“图像处理设备由于其配置信息不完整或已损坏Windows 无法启动这个硬件设备(代码19)”的提示&#xff0c;这该怎么办呢&#xff1f;对于设备管理器中设备不正常的问题&#xff0c;下面由小编…

将视图转为image_使用视图绑定替代 findViewById

从 Android Studio 3.6 开始&#xff0c;视图绑定能够通过生成绑定对象来替代 findViewById&#xff0c;从而可以帮您简化代码、移除 bug&#xff0c;并且从 findViewById 的模版代码中解脱出来。本文梗概在 build.gradle 中就可以方便快捷地开启视图绑定且无须额外引入依赖库视…

第二专业 计算机考试成绩查询系统,2021年上半年信息系统项目管理师成绩查询时间公布(7月12日),查询入口已开通!...

2021年上半年信息系统项目管理师成绩查询时间公布!2021年7月12日上午11点3分48秒&#xff0c;软考办官网发布了2021年上半年计算机技术与软件专业技术资格(水平)考试成绩查询通知。2021年上半年信息系统项目管理师成绩查询入口开通!赶快来查成绩吧!2021年上半年信息系统项目管理…

本周数据与上周对比应如何表达_互联网运营中的数据分析方法

在大数据分析和产品、运营优化方面&#xff0c;大数据分析方法是其核心&#xff0c;那么如何做好数据分析呢&#xff0c;今天我们来讲讲互联网运营中的数据分析方法。1.细分分析细分分析是分析的基础&#xff0c;单一维度下的指标数据的信息价值很低。细分方法可以分为两类&…

惠斯通电桥信号调理芯片_elmos推出专为汽车应用开发的传感器信号调理芯片E520.47...

——符合标准ISO26262 &#xff0c;达到ASIL C等级2019年3月&#xff0c;德国巴伐利亚州慕尼黑讯&#xff0c;elmos日前宣布推出E520.47&#xff0c;这是一款带有SENT接口的传感器信号调理IC&#xff0c;支持两路电阻式传感器电桥的同步信号处理。该IC专为汽车应用的需求而开发…

lab 2 EIGRP Default Route

EIGRP发布默认路由的四种方式Redistributed default route #R1# router eigrp 100redistribute static network 10.1.1.1 0.0.0.0no auto-summary ip route 0.0.0.0 0.0.0.0 202.100.1.10By using ip summary-address command #interface FastEthernet1/0ip address 10.1.1.1 2…

今天英雄联盟服务器维护要到好久,lol今天维护时间是多久 lol维护公告2020最新...

英雄联盟今天维护到几点?今日维护时间是多久?lol维护公告2020最新消息来啦!英雄联盟在4月16日凌晨1点进行了游戏的停机更新。下面&#xff0c;就和小编一起来了解一下最新的维护内容吧!lol10.8版本维护到几点LOL将在4月16日凌晨1点关闭排位赛入口(不影响已经在进行中的对局)&…

开关怎么使用_水龙头漏水怎么办?使用时把控开关力度很重要

水龙头漏水是家居生活中器件中常见的故障之一&#xff0c;导致水龙头漏水的原因有很多&#xff0c;严重就需要我们更换新的水龙头了。水龙头漏水怎么办呢?其实&#xff0c;我们掌握一些家居生活的知识也是对我们很有帮助的&#xff0c;下面是水龙头漏水的解决办法以及预防措施…

fast路由器服务器未响应,win7系统下fast路由器进不了设置界面如何解决

最近有不少win7纯净版系统用户到本站反馈说碰到这样一个问题&#xff0c;就是在使用fast路由器的时候&#xff0c;进不了设置界面&#xff0c;导致无法进行一系列设置&#xff0c;该怎么办呢&#xff0c;接下来给大家讲解一下win7系统下fast路由器进不了设置界面的具体解决方法…

xshell堡垒机_Jumpserver开源堡垒机管理

此篇文章主要介绍jumpserver开源堡垒机管理&#xff0c;安装请移至&#xff1a;Jumpserver开源堡垒机安装一、用户管理1)添加用户1输入要添加的用户名&#xff0c;姓名&#xff0c;权限&#xff0c;Mail&#xff0c;并且发送邮件 —> 确认保存23查看添加的用户4查看用户邮件…

vnc连接服务器怎么配置文件,vnc服务器和客户端怎么配置文件

vnc服务器和客户端怎么配置文件 内容精选换一换用户通过psycopy2连接GaussDB(for openGauss)服务器时&#xff0c;可以通过开启SSL加密客户端和服务器之间的通讯。在使用SSL时&#xff0c;默认用户已经获取了服务端和客户端所需要的证书和私钥文件&#xff0c;关于证书等文件的…

Linux学习(一)

从零开始学习linux&#xff0c;这里不多写虚拟机的安装以及centos的设置&#xff0c;简单粗暴从命令行开始&#xff1b; 一、目录介绍 /bin  存放必要的命令 /boot  存放内核以及启动所需的文件 /dev  存放设备文件 /etc  存放系统配置文件 /home  普通用户的宿主目录…

打印机服务器ip修改,怎么样更改打印机服务器的ip地址

怎么样更改打印机服务器的ip地址 内容精选换一换实例常用端口如表1所示。您可以通过配置安全组规则放通实例对应的端口&#xff0c;详情请参见配置安全组规则。无法访问公有云某些端口问题现象&#xff1a;访问公有云特定端口&#xff0c;在部分地区部分运营商无法访问&#xf…

66319d电源使用说明书_电热水壶怎么使用?电热水壶烧不开水的问题是什么?

电热水壶可在最短的时间里面给人们煮出热水&#xff0c;是目前人们见到的最为常见的小家电产品&#xff0c;但是电热水壶怎么使用?在使用电热水壶时&#xff0c;有遇到烧不开水的问题&#xff0c;这就影响到正常使用水壶了&#xff0c;电热水壶烧不开水的问题是什么?一、电热…

机械制图中外螺纹的画法_机械制图基础知识之图样简化画法

机械制图时是否觉得图样很复杂&#xff0c;很难?那就看看下面的方法吧。1)当物体具有若干相同结构(齿、槽等)&#xff0c;并按一定规律分布时&#xff0c;只需画出几个完整的结构&#xff0c;其余用细实线连接&#xff0c;并注明结构的总数相同结构与简化画法2)若干直径相同且…

gitee存放代码_git / gitee 提交本地仓库代码到Git或Gitee流程 及 常见报错

前提&#xff1a;在 Windows 下安装 git 客户端然后直接在 base 中执行命令1、本地初始化 git 设置git config --global user.name "你的名字或昵称"git config --global user.email "你的邮箱"2、进入项目文件夹&#xff0c;初始化目录 --通过命令 git in…