判断一段文件是UTF-8编码还是GB2312的编码方式


分类: 算法 cpp 7120人阅读 评论(2) 收藏 举报
null生活c

对于只包含中文和英文的文本中判断编码方式是非常简单的,中文的编码方式最常用的是GBK,字符集更大的如GBK向下兼容GB2312,其中包含的的很多一部分字符是我们在日常生活中用不到的,因此在实际中我们一般只需要区分GB2312和UTF8编码。这里我只是提供一种可行的方法,如果判断GBK也可以采用类似的方式首先分析一下汉字在GB2312中的编码方式,gb2312规则汉字采用双字节编码其中第一字节161~247,第二字节161~254,其中含有边界条件。而utf8的编码方式可以看如下表示:

  1. <span style="font-family:Arial, Verdana, sans-serif;"><span style="white-space: normal;">  
  2. </span></span>  

代码范围
十六进制
标量值(scalar value)
二进制
UTF-8
二进制/十六进制
注释
000000 - 00007F
128个代码
00000000 00000000 0zzzzzzz0zzzzzzz(00-7F)ASCII字符范围,字节由零开始
七个z七个z
000080 - 0007FF
1920个代码
00000000 00000yyy yyzzzzzz110yyyyy(C0-DF) 10zzzzzz(80-BF) 第一个字节由110开始,接着的字节由10开始
三个y;二个y;六个z五个y;六个z
000800 - 00D7FF
00E000 - 00FFFF
61440个代码 [Note 1]
00000000 xxxxyyyy yyzzzzzz1110xxxx(E0-EF) 10yyyyyy 10zzzzzz 第一个字节由1110开始,接着的字节由10开始
四个x;四个y;二个y;六个z四个x;六个y;六个z
010000 - 10FFFF
1048576个代码
000wwwxx xxxxyyyy yyzzzzzz11110www(F0-F7) 10xxxxxx 10yyyyyy 10zzzzzz将由11110开始,接着的字节由10开始
这样我们就可以由编码方式上的差异来进行GB2312和UTF8编码识别,下面给出代码

  1. unsigned int countGBK(const char * str)  
  2. {  
  3.     assert(str != NULL);  
  4.     unsigned int len = (unsigned int)strlen (str);  
  5.     unsigned int counter = 0;  
  6.     unsigned char head = 0x80;  
  7.     unsigned char firstChar, secondChar;  
  8.   
  9.     for (unsigned int i = 0; i < len - 1; ++i)  
  10.     {  
  11.         firstChar = (unsigned char)str[i];  
  12.         if (!(firstChar & head))continue;  
  13.         secondChar = (unsigned char)str[i];  
  14.         if (firstChar >= 161 && firstChar <= 247 && secondChar>=161 && secondChar <= 254)  
  15.         {  
  16.             counter+= 2;  
  17.             ++i;  
  18.         }  
  19.     }  
  20.     return counter;  
  21. }  
  22.   
  23. unsigned int countUTF8(const char * str)  
  24. {  
  25.     assert(str != NULL);  
  26.     unsigned int len = (unsigned int)strlen (str);  
  27.     unsigned int counter = 0;  
  28.     unsigned char head = 0x80;  
  29.     unsigned char firstChar;  
  30.     for (unsigned int i = 0; i < len; ++i)  
  31.     {  
  32.         firstChar = (unsigned char)str[i];  
  33.         if (!(firstChar & head))continue;  
  34.         unsigned char tmpHead = head;  
  35.         unsigned int wordLen = 0 , tPos = 0;  
  36.         while (firstChar & tmpHead)  
  37.         {  
  38.             ++ wordLen;  
  39.             tmpHead >>= 1;  
  40.         }  
  41.         if (wordLen <= 1)continue//utf8最小长度为2  
  42.         wordLen --;  
  43.         if (wordLen + i >= len)break;  
  44.         for (tPos = 1; tPos <= wordLen; ++tPos)  
  45.         {  
  46.             unsigned char secondChar = (unsigned char)str[i + tPos];  
  47.             if (!(secondChar & head))break;  
  48.         }  
  49.         if (tPos > wordLen)  
  50.         {  
  51.             counter += wordLen + 1;  
  52.             i += wordLen;  
  53.         }  
  54.     }  
  55.     return counter;  
  56. }  
  57.   
  58. bool beUtf8(const char *str)  
  59. {  
  60.     <span style="white-space:pre">  </span>unsigned int iGBK = countGBK(str);  
  61.     unsigned int iUTF8= countUTF8(str);  
  62.     if (iUTF8 > iGBK)return true;  
  63.     return false;  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/383227.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

判断文件的编码方式

/*功能&#xff1a;实现文件编码格式的判断通过一个文件的最前面三个字节&#xff0c;可以判断出该的编码类型&#xff1a;ANSI&#xff1a;        无格式定义&#xff1b;(第一个字节开始就是文件内容)Unicode&#xff1a;       前两个字节为FFFE&#xff1b;…

Linux系统编程----12(线程概念,Linux线程实现原理,栈中ebp指针和ebp指针,线程的优缺点和共享资源)

线程概念 什么是线程 在一个程序里的一个执行路线就叫做线程&#xff08;thread&#xff09;。更准确的定义是&#xff1a;线程是“一个进程内部的控制序列” 一切进程至少都有一个执行线程线程在进程内部运行&#xff0c;本质是在进程地址空间内运行在Linux系统中&#xff0…

Linux系统编程---13(线程控制函数,创建线程,循环创建多个线程,线程间共享全局变量)

线程控制 操作系统并没有提供创建线程的系统调用接口&#xff0c;因此大佬们封装了一个线程的接口库实现线程控制。意为着用户创建线程都使用的是库函数&#xff08;所以有时候我们说创建的线程是一个用户态线程&#xff0c;但是在内核中对应有一个轻量级进程实现线程程序的调…

Linux系统编程---14(回收子线程,回收多个子线程,线程分离,杀死线程)

回收子线程 pthread_join 函数 阻塞等待线程退出&#xff0c;获取线程退出状态 其作用&#xff0c;对应进程中 waitpid() 函数。 int pthread_join (pthread_t thread,void** retval); 成功&#xff1a;0&#xff0c;失败&#xff1a;错误号 参数&#xff1a;thread&#x…

Linux系统编程----15(线程与进程函数之间的对比,线程属性及其函数,线程属性控制流程,线程使用注意事项,线程库)

对比 进程 线程 fork pthread_create exit (10) pthread_exit &#xff08;void *&#xff09; wait (int *) pthread_join &#xff08;&#xff0c;void **&#xff09;阻塞 kill pthread_cancel ();必须到取消点&#xff08;检查点&#xff09;&#xff1a;…

内核双向循环链表

#include <string.h>#include <stdio.h>#include <stdlib.h>#include<malloc.h>#include <arpa/inet.h>//链表头结构struct list_head{struct list_head *next,*prev;};//真正实现链表插入操作void _list_add(struct list_head *nnew,struct lis…

Linux系统编程----16(线程同步,互斥量 mutex,互斥锁的相关函数,死锁,读写锁)

同步概念 所谓同步&#xff0c;即同时起步&#xff0c;协调一致。不同的对象&#xff0c;对“同步”的理解方式略有不同。如&#xff0c;设备同步&#xff0c;是指在两 个设备之间规定一个共同的时间参考&#xff1b;数据库同步&#xff0c;是指让两个或多个数据库内容保持一致…

转移字符的转换

使得网页上不会显示 \x0a\x0a \x0a \x0a \x0a \x0a 类似的字符static int te_escape_isDec(char *ptr, unsigned int len) { …

Linux系统编程---17(条件变量及其函数,生产者消费者条件变量模型,生产者与消费者模型(线程安全队列),条件变量优点,信号量及其主要函数,信号量与条件变量的区别,)

条件变量 条件变量本身不是锁&#xff01;但它也可以造成线程阻塞。通常与互斥锁配合使用。给多线程提供一个会合的场所。 主要应用函数&#xff1a; pthread_cond_init 函数pthread_cond_destroy 函数pthread_cond_wait 函数pthread_cond_timedwait 函数pthread_cond_signa…

好友

http://blog.csdn.net/liangyuannao/article/details/8583139

Linux系统编程---18(线程池相关概念及其实现)

线程池 概念&#xff1a; 一堆线程任务队列 作用 避免大量线程频繁的创建/销毁时间成本避免瞬间大量线程创建耗尽资源&#xff0c;程序崩溃危险 实现 创建固定数量的线程创建一个线程安全的任务队列 一种线程使用模式。 线程过多会带来调度开销&#xff0c;进而影响缓…

设计模式--1(设计模式基础,设计模式基本原则,设计模式分类)

设计模式基础 模式 在一定环境中解决某一问题的方案&#xff0c;包括三个基本元素–问题&#xff0c;解决方案和环境。大白话&#xff1a;在一定环境下&#xff0c;用固定套路解决问题。 设计模式 是一套被反复使用、多数人知晓的、经过分类编目的、代码设计经验的总结。使…

source insight 使用技巧

source insight 使用技巧 1 sourceinsight screen font 的默认字体是Verdana的&#xff0c;它是一直变宽字体。在Document style中可以将字体改为定宽的Courier2 document options->auto indent 去掉indent Open Brace和Indent Close Brace的效果: 继上一段&#xff0c;在…

设计模式----2(简单工厂模式的概念,简单工厂模式的实现,简单工厂模式的优缺点)

简单工厂模式 简单工厂模式的概念 简单工厂模式属于类的创建型模式,又叫做静态工厂方法模式。通过专门定义一个类来负 责创建其他类的实例&#xff0c;被创建的实例通常都具有共同的父类。 具体分类 工厂&#xff08;Creator&#xff09;角色 简单工厂模式的核心&#xff0…

Redis常见问题及其一些重点知识总结

1、什么是 Redis&#xff1f;简述它的优缺点&#xff1f; Redis 的全称是&#xff1a;Remote Dictionary.Server&#xff0c;本质上是一个 Key-Value 类型的内存数据库&#xff0c;很像 memcached&#xff0c;整个数据库统统加载在内存当中进行操作&#xff0c;定期通过异步操…

shell生成随机文件名

1 #!/bin/bash 2 # tempfile-name.sh: 临时文件名产生器 3 4 BASE_STRmcookie # 32-字符的 magic cookie. 5 POS11 # 字符串中随便的一个位置. 6 LEN5 # 取得 $LEN 长度连续的字符串. 7 8 prefixtemp # 最终的一个临时文…

设计模式---3(工厂方法模式的概念,工厂方法模式的实现,工厂方法模式和简单工厂模式比较)

工厂方法模式 概念 工厂方法模式同样属于类的创建型模式又被称为多态工厂模式 。 工厂方法模式的意义 定义一个创建产品对象的工厂接口&#xff0c;将实际创建工作推迟到子类当中。 核心工厂类不再负责产品的创建&#xff0c;这样核心类成为一个抽象工厂角色&#xff0c;仅…

设计模式---4(抽象工厂模式的概念,产品组和产品等级的概念,抽象工厂模式的实现)

抽象工厂模式 抽象工厂模式的概念 抽象工厂模式是所有形态的工厂模式中最为抽象和最其一般性的。抽象工厂模式可以向 客户端提供一个接口&#xff0c;使得客户端在不必指定产品的具体类型的情况下&#xff0c;能够创建多个产品 族的产品对象。 抽象工厂的角色及其职责 抽象工…

Win32项目关于MessageBox参数的详细说明

函数功能&#xff1a;该函数创建、显示、和操作一个消息框。消息框含有应用程序定义的消息和标题&#xff0c;加上预定义图标与Push&#xff08;下按&#xff09;按钮的任何组合。 函数原型&#xff1a;int MessageBox(HWND hWnd,LPCTSTR IpCaption,UINT…

w3af解析

1. w3af简介 w3afis a Web Application Attack and Audit Framework.即Web应用攻击和审计框架。w3af用python编写&#xff0c;依赖的库主要有2类&#xff0c;分别如下&#xff1a; <1> Core requirements: Python 2.6 fpconst-0.7.2&#xff1a;用于处理IEEE 754浮点…