MySQL 字符集概念、原理及如何配置 — 图文详解

目录

一、字符集概念

1、字符(Character)

2、字符编码

3、字符集(Character set)

二、字符集原理

1. ASCII字符集

2、GB2312

3、GBK

4、GB18030

5、BIG5

6、Unicode 编码

三、字符序

四、MySQL字符集 & 字符序

1、mysql 字符集

2、mysql 字符序

3、字符集与字符序的关系

五、MySQL 数据存储字符集

1. 字符集层级关系

2、如何设置字符集

2.1 服务器字符集设置

2.2 数据库字符集设置

2.3 数据表字符集设置

2.4 字段字符集设置

3、多级的字符集 & 多个字符集的作用

六、MySQL 客户端与服务端交互字符集

1、交互示意图

2、如何设置字符集


    我们在使用 MySQL 的过程中,经常会碰到诸如乱码之类的问题。字符编码与字符集密切相关,MySQL 支持种类繁多的字符集类型,这些字符集到底如何影响 MySQL 数据存储与数据传输的呢?我们该如何选择正确的字符集?那就通过这篇文章来帮你捋清细节和解除困扰吧!

本文依赖以下环境:

操作系统:MAC OS 10.11.6

MySQL:Server version: 5.6.21 MySQL Community Server (GPL)

一、字符集概念

1、字符(Character)

字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字、😀(emoji表情)等属于字符的范畴。

2、字符编码

计算机是通过 BIT 来存储数据的,将人类可识别的字符转换成计算机能够存储的形式,这个过程就是字符编码。

3、字符集(Character set)

字符集是多个字符的集合,包含一组字符以及对应的编码方式。字符集种类较多,每个字符集包含的字符个数和编码方式不同,常见字符集名称:ASCII 字符集、GB2312 字符集、BIG5 字符集、 GB18030 字符集、Unicode 字符集等。

二、字符集原理

1. ASCII字符集

我们熟知的 ASCII 字符集是一种现代美国英语适用的字符集。包括的字符有数字、大小写字母、分号、换行之类的符号,编码方式是用一个 7bit 表示一个字符,例如A的编码是 65,b 的编码是 98。

ASCII(American Standard Code for Information Interchange,美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言,主要编码表如下图所示。

2、GB2312

GB2312 字符集是一种对汉字比较友好的字符集,共收录 6700 多个汉字,基本涵盖了绝大部分常用汉字。不过,GB2312 字符集不支持绝大部分的生僻字和繁体字。对于英语字符,GB2312 编码和 ASCII 码是相同的,1 字节编码即可。对于非英字符,需要 2 字节编码。

3、GBK

GBK 字符集可以看作是 GB2312 字符集的扩展,兼容 GB2312 字符集,共收录了 20000 多个汉字。GBK 中 K 是汉语拼音 Kuo Zhan(扩展)中的 “Kuo” 的首字母。

4、GB18030

GB18030 完全兼容 GB2312 和 GBK 字符集,纳入中国国内少数民族的文字,且收录了日韩汉字,是目前为止最全面的汉字字符集,共收录汉字 70000 多个。

5、BIG5

BIG5 主要针对的是繁体中文,收录了 13000 多个汉字。

6、Unicode 编码

ASCII 只对英文符号和英文字母做了编码,GB2312对英文符号,英文字母,汉字做了编码。每个国家为了更加适合本国语言,都有一套自己的字符集。不同的字符集可以表示的字符范围以及编码规则存在差异。同一个编码,对于不同的字符集来说就可能代表不同的字符:

这就导致了一个非常严重的问题:使用错误的编码方式查看一个包含字符的文件就会产生乱码现象。就比如说你使用 UTF-8 编码方式打开 GB2312 编码格式的文件就会出现乱码。示例:“牛”这个汉字 GB2312 编码后的十六进制数值为 “C5A3”,而 “C5A3” 用 UTF-8 解码之后得到的却是 “ţ”

为了解决不同语言编码之间不兼容的问题,Unicode 出现了。Unicode 字符集致力于为全世界每一个语言的每一个字符都有统一且唯一的编码,Unicode 字符序号的范围是 0x000000 到0x10FFFF,可以容纳110多万个字符。UTF8、UTF16、UTF32是Unicode编码的不同实现方式:

  • UTF-8 使用 1 到 4 个字节为每个字符编码, UTF-16 使用 2 或 4 个字节为每个字符编码,UTF-32 固定位 4 个字节为每个字符编码。
  • UTF-8 可以根据不同的符号自动选择编码的长短,像英文字符只需要 1 个字节就够了,这一点 ASCII 字符集一样 。因此,对于英语字符,UTF-8 编码和 ASCII 码是相同的。
  • UTF-32 的规则最简单,不过缺陷也比较明显,对于英文字母这类字符消耗的空间是 UTF-8 的 4 倍之多。
     

三、字符序

一个字符集中有多个字符,那么如何对其中的字符进行排序呢?这就是字符序。简单来说,字符序就是字符排序的规则集合。

一个字符集中有多个字符,那么如何对其中的字符进行排序呢?这就是字符序。比如一个字符集有下面几个字符以及字符编码:

我们可以直接按照 A > B > a > b 的规则来进行排序,这就是这个简单字符集的一个字符序。如果想让小写字母放在前面,比如 a > b > A > B,这又是一种字符序。如果还想加上大小写无关或大小写相关,这就产生了不同的字符序。

四、MySQL字符集 & 字符序

接下来我们来看看 MySQL 的字符集与字符序。MySQL 目前支持多种字符集,支持在不同的字符集之间转换(便于移植和支持多语言)。

1、mysql 字符集

通过命令: mysql -u[username] -p[password]  连接上MySQL后,用下面命令查询MySQL 支持的字符集:

SHOW CHARACTER SET;

结果:

指定条件查询: 

SHOW CHARACTER SET LIKE 'utf%';

结果:

字段含义:

  • Charset: 字符集的名称;
  • Description:字符集的简单描述;
  • Default collation:该字符集的默认字符序;
  • Maxlen:该字符集中字符最大存储长度。

2、mysql 字符序

每个字符集都对应一个或多个字符序,可以通过下面的语句查看所有的字符序:

SHOW COLLATION;

结果(部分展示):

 指定条件查询:

SHOW COLLATION WHERE Charset = 'utf8mb4';

结果:

字段含义: 

  • Collation:字符序名称;
  • Charset:该字符序关联的字符集;
  • Id:字符序ID;
  • Default:该字符序是否是所关联的字符集的默认字符序。比armscii8_general_ci就是armscii8的默认字符序,而armscii8_bin就不是;
  • Compiled:字符集是否已编译到服务器中;
  • Sortlen:这与对以字符集表示的字符串进行排序所需的内存量有关;
  • Pad_attribute:这表明了字符序在比较字符串时对末尾padding的处理。NO PAD表明在比较字符串时,末尾的padding也会考虑进去,否则不考虑。

每个字符序都是以该字符序所关联的字符集为前缀的,同时还有一些有规律的后缀:

  • bin:二进制;
  • ci:大小写不敏感;
  • cs:大小写敏感;
  • ai:口音(Accent)不敏感;
  • as:口音敏感;
  • ks:假名(Kanatype)敏感。

同时有的字符序是面向某种语言的,也会在字符序名字中有所体现,比如big5_chinese_ci。
 

3、字符集与字符序的关系

字符集与字符序的关系可以上面的图来表示:

  • 每个字符集都有一个或多个字符序;
  • 每个字符集都有一个默认的字符序;
  • 每个字符序都关联一个且只有一个字符集;
  • 两个不同的字符集没有相同的字符序。

五、MySQL 数据存储字符集

1. 字符集层级关系

MySQL 是按层级来设定字符集与字符序的,MySQL 可以设置:服务器级字符集、数据库级字符集、数据表级字符集、表列级别字符集。实际上,最终使用字符集的地方是存储字符的列,它决定了数据库中存储的数据采用哪个字符集的编码和字符序。

结构图:

 层级图:

如上图所示:

上一层级如果没有指定字符集与字符序,就采用下一层级的字符集与字符序。也就是说:新建数据库时没有指定字符集,就默认设置为服务器的字符集;如果新建数据表时没有指定字符集,就默认设置为数据库的字符集;如果向数据表添加新列时没有指定列的字符集,那么这些列就默认设置为数据表的字符集。与字符集相同,如果不特别指定,字符序也采取了默认值继承的方式。

另一方面,直接改变这四个层次的编码并不会改变它们各自所有下层对象的当前编码。比如修改 Server 级,那么所有已经存在的数据库、数据表、表、列的字符集都不会发生改变。同时,数据表中每一条现有记录的字符字段仍然是按原来的编码存储的。

2、如何设置字符集

我们先来看下,MySQL 刚安装完,MySQL 字符集的的初始字符集和字符序是什么?

查看字符集变量:

SHOW VARIABLES LIKE 'character_set\_%';

查看字符序变量:

SHOW VARIABLES LIKE '%collation%';

查询结果:

character_set_server:服务器的字符集是 latin1

collation_server: 服务器的字符序是 latin1_swedish_ci

character_set_database:数据库的字符集是 latin1

collation_database:数据库的字符序是 latin1_swedish_ci

从上图可以看出,MySQL 服务器安装后已经初始化了服务器和数据库的默认字符集和字符序,另外,我们在创建数据库、表、添加字段时,都可以默认采用上一级的字符集和字符序,也可以在创建时自行指定:

2.1 服务器字符集设置

通过 character_set_server 变量的设定字符集的几个方式:

方式1:在 my.cnf 中配置

[mysqld]
character-set-server=utf8

方式2:启动时配置参数

mysqld --charater-set-server=utf8

方式3:编译时指定

[root@database-one ~]# cmake . -DDEFAULT_CHARSET=utf8

2.2 数据库字符集设置

// -- 示例: 创建数据库create database if not exists dbtest character set utf8;// -- 示例:修改数据库ALTER DATABASE dbtest CHARACTER SET 'utf8';

2.3 数据表字符集设置

// -- 创建表时:DEFAULT CHARSET=utf8mb4 设置字符集CREATE TABLE `t_employee` (`id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '员工ID',`code` varchar(10) NOT NULL COMMENT '员工编码',`name` varchar(10) NOT NULL COMMENT '员工姓名',`age` int(10) unsigned DEFAULT NULL COMMENT '年龄',`sex` int(10) unsigned DEFAULT NULL COMMENT '性别',`cert_type` int(10) unsigned DEFAULT NULL COMMENT '证件类型',`cert_no` varchar(20) DEFAULT NULL COMMENT '证件号',`birthday` date DEFAULT NULL COMMENT '生日',`income_date` date DEFAULT NULL COMMENT '入职日期',PRIMARY KEY (`id`),UNIQUE KEY `code` (`code`),UNIQUE KEY `cert_type` (`cert_type`,`cert_no`)) ENGINE=InnoDB AUTO_INCREMENT=28 DEFAULT CHARSET=utf8mb4 COMMENT='员工表';// -- 修改表的字符集ALTER TABLE `dbtest`.`t_employee` CHARACTER SET = utf8mb4;

2.4 字段字符集设置

// -- 创建表时:CHARACTER SET utf8mb4指定字段字符集CREATE TABLE `t_employee` (`id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '员工ID',`code` varchar(10) NOT NULL COMMENT '员工编码',`name` varchar(10) NOT NULL COMMENT '员工姓名',`age` int(10) unsigned DEFAULT NULL COMMENT '年龄',`sex` int(10) unsigned DEFAULT NULL COMMENT '性别',`cert_type` int(10) unsigned DEFAULT NULL COMMENT '证件类型',`cert_no` varchar(20) CHARACTER SET utf8mb4 DEFAULT NULL COMMENT '证件号',`birthday` date DEFAULT NULL COMMENT '生日',`income_date` date DEFAULT NULL COMMENT '入职日期',PRIMARY KEY (`id`),UNIQUE KEY `code` (`code`),UNIQUE KEY `cert_type` (`cert_type`,`cert_no`)) ENGINE=InnoDB AUTO_INCREMENT=28 DEFAULT CHARSET=utf8 COMMENT='员工表';// -- 修改字段的字符集:CHARACTER SET utf8mb4ALTER TABLE `dbtest`.`t_employee` MODIFY COLUMN `cert_no` varchar(20) CHARACTER SET utf8mb4 NULL DEFAULT NULL COMMENT '证件号' AFTER `cert_type`;

3、多级的字符集 & 多个字符集的作用

多级继承的字符集与字符序:可以方便快捷的确定下一层级的字符集和字符序,比如一个数据库下面有很多张表,只需要将数据库的字符集设置为 UTF8,所有表创建时就指定了默认的字符集。

早期只支持有限数量和编码字符集,后来不断的扩展,例如早期的 UTF8(阉割版本,早期 MySQL 版本为了节省存储空间,最多三个字节)完全够用了,后面出现了 EMOJI 表情符号,又不能满足要求了,于是有 utf8mb4 字符集。并且支持在同一个服务器下数据库有不同的字符集,同一个数据库下的不同表也可以设定不同的字符集,同一个表的不同字段也可以设定不同的字符集,都是为了方便业务的移植和扩展。(例如以前一个业务只覆盖了欧洲英文国家,采用 ladin 1字符集就足够了,但是后来有扩展到中国,于是需要将字符集扩展到 UTF8;之前全部采用UTF8字符集,但是发现用户注册的昵称使用了 EMOJI 表情符号,于是将 nickname 字段的字符集修改为 utf8mb4)。

六、MySQL 客户端与服务端交互字符集

上面 4 种级别的字符集都是用于数据保存的,其实客户端和服务器之间的交互也受到字符集和校对规则的影响。

MySQL提供了character_set_client、character_set_connection 和 character_set_results 三个参变量:

  • character_set_client
  • character_set_connection
  • character_set_results

1、交互示意图

既:

  1. 客户端的语句从客户端出发时,使用的字符集是 character_set_client
  2. 语句到达服务器时,服务器将语句转换成 character_set_connection字符集;
  3. 服务器执行完,将结果返回给客户端时,使用的是 character_set_results字符集。

2、如何设置字符集

方式1:在 MySQL 配置文件中设置 my.cnf:

[client]
default-character-set=utf8

方式2:在客户端执行:

SET NAMES utf8;

方式3:在连接地址配置:

jdbc:mysql://localhost:3306/mydatabase?useUnicode=true&characterEncoding=utf8

以上三种方式等效于在客户端同时执行三条命令:

SET character_set_client utf8;SET character_set_connection utf8;SET character_set_results utf8;

参考:

MySQL配置文件my.ini详解

你真的搞懂MySQL的字符集了吗?

MySQL字符集的不同级别和效果

深入理解MySQL字符集及校对规则(一)

MySQL的字符编码体系(一)——数据存储编码

MySQL-解析客户端SQL执行字符集参数设置

MySQL中的字符集与字符序

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/47071.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux命令200例:tar命令主要用于创建、查看和提取归档文件(常用)

🏆作者简介,黑夜开发者,全栈领域新星创作者✌。CSDN专家博主,阿里云社区专家博主,2023年6月csdn上海赛道top4。 🏆数年电商行业从业经验,历任核心研发工程师,项目技术负责人。 &…

CTFhub-sql-整数注入

判断存在 sqli 注入 1 1 and 11 1 and 12 因为 11 为真,12 为假,且 11 与 1 显示的数据一样,那么就存在 sqli 注入 查询该数据表的字段数量 一、 2 3 1,2成功带出数据,3没有数据,所以有两个字段 二、 1 order by …

JAMstack架构:快速构建安全、高性能的现代应用

随着Web应用的快速发展,开发者们在寻找更加高效、安全和可维护的应用架构。JAMstack架构应运而生,它通过将前端、后端和部署过程分离,提供了一种现代化的方式来构建Web应用。在本文中,我们将深入探讨JAMstack架构的特点、优势以及…

【已解决】Please install Node.js and npm before continuing installation.

给juopyter lab安装插件时报这个错 原因是,conda本身有nodejs,但是版本很低,只有0.几 所以需要卸载掉原来的nodejs,重新安装10版本以上的nodejs # 卸载命令 pip uninstall nodejs # 安装命令 conda install nodejs14.7.0 -c cond…

蓝蓝设计-ui设计公司-界面设计案例作品

泛亚高科-光伏电站控制系统界面设计 html前端 | 交互设计 | 视觉设计 | 图标设计 泛亚高科(北京)科技有限公司(以下简称“泛亚高科”),一个以实时监控、高精度数值计算为基础的科技公司, 自成立以来,组成了以博士、硕…

分布式搜索引擎----elasticsearch

目录 1、初识elasticsearch 1.1、什么是elasticsearch 1.2.ELK技术栈 2、正向索引和倒排索引 2.1、正向索引 2.2、倒排索引 2.3、正向索引和倒排索引的区别 3、elasticsearch中的概念理解 3.1、文档和字段 3.2、索引和映射 3.3、mysql与elasticsearch 1、初识elasti…

为什么选择elasticsearch分布式搜索引擎

文章目录 🔭什么是elasticsearch🌠ELK技术栈🌠elasticsearch和lucene🌠为什么不是其他搜索技术? 🔭总结 🔭什么是elasticsearch elasticsearch是一款非常强大的开源搜索引擎,具备非常…

TCP机制-延迟应答,捎带应答

在看本篇博客前推荐先看TCP中窗口和滑动窗口的含义以及流量控制 延迟应答和捎带应答都是TCP用于提高网络传输效率的机制 延迟应答 当发送端发送数据给接收端了以后,按道理接收端的内核会立即返回ACK(应答报文)给发送端,而且ACK&a…

SQL有关表的左连接,右连接,以及内连接

首先我们需要想一下,我们为什么需要将表连接在一起呢?换种说法,即我们需要查询的数据不在同一张表里面,而是在A表中查出一部分,然后再去B表中查出一部分,然后两者结合在一起,才是我们需要的部分…

StringIndexOutOfBoundsException: String index out of range: 458

报错信息&#xff1a; org.springframework.dao.TransientDataAccessResourceException: ### Error updating database. Cause: java.sql.SQLException: java.lang.StringIndexOutOfBoundsException: String index out of range: 458 ... ... ... 问题原因&#xff1a; <i…

linux-3.4.2 的v4l2驱动框架分析

一般的驱动框架中&#xff0c;都是分配某个结构体&#xff0c;然后设置注册该结构体&#xff0c;该结构体有个上层管理者&#xff0c;一般是和应用程序交互的入口&#xff0c;V4l2框架框是否也是如此呢&#xff0c;下面进行源码分析。 首先uvc_driver.c里分配了uvc_driver结构…

动漫3D虚拟人物制作为企业数字化转型提供强大动力

一个 3D 虚拟数字人角色的制作流程&#xff0c;可以分为概念设定-3D 建模-贴图-蒙皮-动画-引擎测试六个步骤&#xff0c;涉及到的岗位有原画师、模型师、动画师等。角色概念设定、贴图绘制一般是由视觉设计师来完成;而建模、装配(骨骼绑定)、渲染动画是由三维设计师来制作完成。…

R package org.Hs.eg.db to convert gene id

文章目录 install使用org.Hs.egENSEMBL将Ensembl id convert to gene idorg.Hs.egGENENAME 将Ensembl id convert to gene nameorg.Hs.egSYMBOL 将 gene symbol convert to gene id我现在有一些ensembl id 如何转为 gene name注意你会遇到一些record不全的情况&#xff0c;gtf文…

Pytorch-day10-模型部署推理-checkpoint

模型部署&推理 模型部署模型推理 我们会将PyTorch训练好的模型转换为ONNX 格式&#xff0c;然后使用ONNX Runtime运行它进行推理 1、ONNX ONNX( Open Neural Network Exchange) 是 Facebook (现Meta) 和微软在2017年共同发布的&#xff0c;用于标准描述计算图的一种格式…

商业智能BI是什么都不明白,如何实现数字化?

2021年下半年中国商业智能软件市场规模为4.8亿美元&#xff0c;2021年度市场规模达到7.8亿美元&#xff0c;同比增长34.9%&#xff0c;呈现飞速增长的趋势。数字化时代&#xff0c;商业智能BI对于企业的落地应用有着巨大价值&#xff0c;逐渐成为了现代企业信息化、数字化转型中…

【Leetcode Sheet】Weekly Practice 3

Leetcode Test 833 字符串中的查找与替换(8.15) 你会得到一个字符串 s (索引从 0 开始)&#xff0c;你必须对它执行 k 个替换操作。替换操作以三个长度均为 k 的并行数组给出&#xff1a;indices, sources, targets。 要完成第 i 个替换操作: 检查 子字符串 sources[i] 是否…

怎么借助ChatGPT处理数据结构的问题

目录 使用ChatGPT进行数据格式化转换 代码示例 ChatGPT格式化数据提示语 代码示例 批量格式化数据提示语 代码示例 ChatGPT生成的格式化批处理代码 使用ChatGPT合并不同数据源的数据 合并数据提示语 自动合并数据提示语 ChatGPT生成的自动合并代码 结论 数据合并是…

在Windows下安装PIP+Phantomjs+Selenium

最近准备深入学习Python相关的爬虫知识了&#xff0c;如果说在使用Python爬取相对正规的网页使用"urllib2 BeautifulSoup 正则表达式"就能搞定的话&#xff1b;那么动态生成的信息页面&#xff0c;如Ajax、JavaScript等就需要通过"Phantomjs CasperJS Selen…

【从零开始的rust web开发之路 二】axum中间件和共享状态使用

系列文章目录 第一章 axum学习使用 第二章 axum中间件使用 文章目录 系列文章目录前言一、中间件是什么二、中间件使用常用中间件使用中间件使用TraceLayer中间件实现请求日志打印自定义中间件 共享状态 前言 上篇文件讲了路由和参数相应相关的。axum还有个关键的地方是中间件…