✅生产问题之Emoji表情如何操作存储,MySQL是否支持

针对 Emoji 表情 MySQL 存储是否支持的问题,结论是:

MySQL 中可以存储 emoji 表情,但需要使用 UTF8MB4 字符编码。如果使用 UTF8MB3,存储这些扩展字符会导致解析错误。

课外补充

MySQL 对 Unicode 的支持

Unicode 字符集已成为计算机科学领域的业界标准,它整理、编码了世界上大部分的文字系统,使得计算机能够更简便地呈现和处理文字。

为了满足不同的数据存储和传递需求,人们开发了多种 Unicode Transformation Format(UTF)编码。主要的 UTF 编码包括 UTF-8、UTF-16 和 UTF-32 等。

根据 MySQL 官方文档

  • https://dev.mysql.com/doc/refman/8.0/en/charset-unicode.html

MySQL 主要支持以下字符集:utf8、ucs2、utf8mb3、utf8mb4、utf16、utf16le 和 utf32。这些字符集在支持的字符范围和存储空间需求上有所不同。

字符集支持的字符每个字符所需存储空间
utf8mb3, utf8BMP1-3 字节
ucs2BMP2 字节
utf8mb4BMP 和补充字符1-4 字节
utf16BMP 和补充字符2 或 4 字节
utf16leBMP 和补充字符2 或 4 字节
utf32BMP 和补充字符4 字节

在 MySQL 官方文档中,介绍了支持的编码方式之后,还有一段醒目的提醒:
image.png

以上文字大致意思是:“UTF8MB3 字符集已被弃用,它在未来的 MySQL 版本中将会被删除,请使用 UTF8MB4 代替。在目前的 8.0 版本中,utf8 指的就是 UTF8MB3,虽然未来可能改成 UTF8MB4,但是为了避免产生歧义,可以考虑为字符集引用显式指定 UTF8MB4,而不是 utf8。”

这段话的意思是,MySQL 8.0 版本中使用 UTF-8 字符编码实际上是使用了 utf8mb3 编码方式,但 UTF8MB3 已经被弃用,并且在未来的 MySQL 版本中会被移除。因此,建议在设定字符集时明确指定 UTF8MB4,以避免将来可能引起的歧义和问题。

现在我们来详细讨论 UTF8MB3 的情况。

UTF8MB3

utf8mb3 字符集是 MySQL 早期支持的一种字符集,具有以下特征:

  1. 仅支持 Basic Multilingual Plane(BMP)中的字符,不支持补充字符。
  2. 每个多字节字符最多需要三个字节来表示。

BMP 指的是基本多文种平面,其中的字符码位范围在 0 到 65535(或者用 Unicode 表示为 U+0000 到 U+FFFF)。这意味着 utf8mb3 无法存储码位在 U+10000 到 U+10FFFF 之间的补充字符,包括一些生僻的汉字和 Emoji 表情等。

因此,如果在创建 MySQL 表时使用 utf8mb3(即 utf-8)作为字符编码方式,就无法正确存储和处理补充字符。

UTF8MB4

早期的 Unicode 版本只使用了 0 到 0xFFFF 范围的编码,称为 BMP(Basic Multilingual Plane)字符集。因此,最初 MySQL 设计时只涵盖了支持 BMP 字符集的 utf8mb3(即 utf-8)。随着需求增加,包含在 Unicode 标准中的字符数量也增加了。

因此,早期的 utf8mb3 在某些情况下无法满足需求,特别是随着 Unicode 标准支持更多字符时,三个字节的编码空间变得不足以覆盖所有字符。

为了解决这个问题,MySQL 在 5.5.3 版本之后引入了 utf8mb4 字符集。

utf8mb4 字符集具有以下特点:

  1. 支持 BMP 和补充字符,即能够表示从 0 到 0x10FFFF 的所有 Unicode 字符。
  2. 每个多字节字符最多需要四个字节来编码。

utf8mb4 与 utf8mb3 字符集不同的地方在于,utf8mb3 仅能表示 BMP 字符,而 utf8mb4 则能够处理补充字符。对于 BMP 字符,utf8mb4 和 utf8mb3 的存储方式相同,但对于补充字符,utf8mb4 需要四个字节来存储,而 utf8mb3 则无法处理这些字符。

因此,为了确保能够存储和处理 Unicode 标准中的所有字符,特别是包括 Emoji 表情在内的补充字符,建议在创建 MySQL 表时使用 utf8mb4 字符集,而不是 utf8。

UTF8MB3 和 UTF8MB4 区别及优缺点

前面已经分别介绍了 utf8mb3 和 utf8mb4 字符集,它们的区别总结如下:

  • utf8mb3 只支持 BMP(Basic Multilingual Plane)中的字符,而 utf8mb4 则支持 BMP 以及补充字符。
  • 每个字符在 utf8mb3 中最多使用 3 个字节来编码,而在 utf8mb4 中最多使用 4 个字节。
  • utf8mb4 能够表示更多的补充字符,但因为每个字符可能使用更多的字节,所以在存储空间上可能会比 utf8mb3 占用更大。

总之,utf8mb4 相比 utf8mb3 提供了更广泛的字符支持,尤其是对于包含 Emoji 表情在内的补充字符,但这也可能导致数据存储时占用更多的空间。

从 utf8mb3 转换成 utf8mb4

首先,将字符集从 utf8mb3 转换到 utf8mb4 其实并不困难:

对于 BMP 字符,utf8mb4 和 utf8mb3 具有相同的存储特性:相同的编码值、相同的编码方式以及相同的长度。

对于补充字符,utf8mb4 需要使用 4 个字节进行存储,而 utf8mb3 则无法存储这些字符。当将使用 utf8mb3 的列转换为 utf8mb4 时,您无需担心补充字符的转换问题,因为 utf8mb3 根本不支持补充字符。

假设已有一张表使用了 utf8mb3 字符集:


CREATE TABLE t1 (col1 CHAR(10) CHARACTER SET utf8 COLLATE utf8_unicode_ci NOT NULL,col2 CHAR(10) CHARACTER SET utf8 COLLATE utf8_bin NOT NULL
) CHARACTER SET utf8;

下面的语句将 t1 转换为 utf8mb4:

ALTER TABLE t1DEFAULT CHARACTER SET utf8mb4,MODIFY col1 CHAR(10)CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL,MODIFY col2 CHAR(10)CHARACTER SET utf8mb4 COLLATE utf8mb4_bin NOT NULL;

如有问题,欢迎微信搜索【码上遇见你】。

免费的Chat GPT可微信搜索【AI贝塔】进行体验,无限使用。

好了,本章节到此告一段落。希望对你有所帮助,祝学习顺利。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/29032.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

6.17作业

升级优化自己应用程序的登录界面。 要求: 1. qss实现 2. 需要有图层的叠加 (QFrame) 3. 设置纯净窗口后,有关闭等窗口功能。 4. 如果账号密码正确,则实现登录界面关闭,另一个应用界面显示。 //发送端头文件…

一个C++版本的web服务器

以下是一个最近练手的简单的C Web服务器示例代码&#xff0c;献丑了&#xff1a; #include <iostream> #include <string> #include <asio.hpp> using asio::ip::tcp; std::string make_http_response(const std::string& request) { std::strin…

AI训练Checkpoint对存储的影响

检查点&#xff08;Checkpoints&#xff09;是机器学习和深度学习训练过程中的一个重要机制&#xff0c;旨在定期保存训练状态&#xff0c;以便在训练过程中遇到失败或中断时能够从中断处恢复训练&#xff0c;而无需从头开始。 随着模型参数量的剧增&#xff0c;Checkpoint文件…

经历的分享

我是三本计算机科学技术跨考上岸的学生&#xff0c;本科阶段技术能力并没有掌握多少&#xff0c;在选择导师时屡屡碰壁&#xff0c;我当时向许多计算机方向的导师&#xff0c;比如大数据方向,计算机视觉 迁移学习和图像处理方向的导师全都拒绝了我&#xff0c;最终学校给我分配…

【机器学习300问】122、RNN面临哪些问题?

循环神经网络&#xff08;RNN&#xff09;主要面临梯度消失和梯度爆炸两个核心问题&#xff0c;这严重影响了其处理长期依赖的能力。此外&#xff0c;还存在一些其他的技术挑战。 一、两个主要问题 &#xff08;1&#xff09;梯度消失和梯度爆炸问题 这是RNN中最显著的问题之…

区间预测 | Matlab实现CNN-ABKDE卷积神经网络自适应带宽核密度估计多变量回归区间预测

区间预测 | Matlab实现CNN-ABKDE卷积神经网络自适应带宽核密度估计多变量回归区间预测 目录 区间预测 | Matlab实现CNN-ABKDE卷积神经网络自适应带宽核密度估计多变量回归区间预测效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.Matlab实现CNN-ABKDE卷积神经网络自适应…

鸿蒙开发网络管理:【@ohos.net.connection (网络连接管理)】

网络连接管理 说明&#xff1a; 本模块首批接口从API version 8开始支持。后续版本的新增接口&#xff0c;采用上角标单独标记接口的起始版本。 导入模块 import connection from ohos.net.connectionconnection.getDefaultNet getDefaultNet(callback: AsyncCallback): void…

大话设计模式解读03-装饰模式

本篇文章&#xff0c;来解读《大话设计模式》的第6章——装饰模式。并通过C代码实现实例代码的功能。 注&#xff1a;第3~6章讲的是设计模式中的一些原则&#xff08;第3章&#xff1a;单一职责原则&#xff1b;第4章&#xff1a;开放-封闭原则&#xff1b;第5章&#xff1a;依…

什么是扩展运算符;

在JavaScript中&#xff0c;扩展运算符&#xff08;Spread Operator&#xff09;是另一种常用的运算符&#xff0c;尤其在处理数组和对象时非常有用。它以三个连续的点&#xff08;…&#xff09;表示&#xff0c;可以将数组、对象或字符串展开为它们的个别元素或属性。这种运算…

嵌入式linux系统中SPI子系统原理分析01

大家好,今天给大家分享一下,如何使用linux系统中的SPI通信协议,实现主从设备之间的信息传递。 SPI是一种常见的设备通用通信协议。它是一个独特优势就是可以无中断发送数据,可以连续发送或接收任意数量的位。而在I2C和UART中,数据以数据包的形式发送,有限定位数。 …

FreeBSD通过CBSD管理低资源容器jail来安装Ubuntu子系统实践

简介 FreeBSD、CBSD、Jail和Ubuntu&#xff0c;四者的组合方案可以说是强强联合&#xff0c;极具性价比和竞争力&#xff01;同时安装简单方便&#xff0c;整体方案非常先进。 CBSD是为FreeBSD jail子系统、bhyve、QEMU/NVMM和Xen编写的管理层。该项目定位为一个综合解决方案…

【操作系统】线程进程相关

线程 & 进程 1 进程 2 线程 2.1 线程保序 在C中&#xff0c;线程的执行顺序是由操作系统调度的&#xff0c;并且通常是不能被程序员直接控制的。也就是说&#xff0c;你不能直接强制线程按照特定的顺序执行。然而&#xff0c;你可以使用某些同步机制来影响线程的执行顺…

MinIO:构建未来的开源对象存储解决方案

MinIO&#xff1a;构建未来的开源对象存储解决方案 在当今数据驱动的世界中&#xff0c;对象存储已成为云计算环境中不可或缺的一部分。随着数据量的激增&#xff0c;企业和开发者们都在寻找既高效又经济的数据存储方案。在这个背景下&#xff0c;MinIO应运而生&#xff0c;它…

Win和Linux的状态空间模型安装教程

目录 一、Linux系统安装 二、Win系统安装 1&#xff09;、安装causal_conv1d 1、第一种方法 2、第二种方法&#xff08;感觉可靠&#xff09; 3、第三种方法&#xff1a;直接下载大神编译好的文件进行安装 2&#xff09;、安装mamba-ssm 1、第一种方法 2、第二种方法&…

wondershaper 一款限制 linux 服务器网卡级别的带宽工具

文章目录 一、关于奇迹整形器二、文档链接三、源码下载四、限流测试五、常见报错1. /usr/local/sbin/wondershaper: line 145: tc: command not found2. Failed to download metadata for repo ‘appstream‘: Cannot prepare internal mirrorlist: No URLs.. 一、关于奇迹整形…

Memcached:高性能分布式缓存系统的奥秘解锁

在高并发的互联网应用场景中&#xff0c;缓存系统的作用至关重要。它可以显著提高系统的响应速度&#xff0c;减轻数据库的压力。在众多缓存技术中&#xff0c;Memcached以其简单、高效、稳定的特性脱颖而出&#xff0c;成为了全球众多互联网公司的选择。本文将为您全面揭秘Mem…

Langchain中使用Ollama提供的Qwen大模型进行Function Call实现天气查询、网络搜索

Function Call&#xff0c;或者叫函数调用、工具调用&#xff0c;是大语言模型中比较重要的一项能力&#xff0c;对于扩展大语言模型的能力&#xff0c;或者构建AI Agent&#xff0c;至关重要。 Function Call的简单原理如下&#xff1a; 按照特定规范&#xff08;这个一般是L…

vue跨域问题,请注意你的项目是vue2还是vue3

uniapp跨域设置了&#xff0c;但还是有问题 uniapp设置代理后还是无法请求后端接口vue2项目设置代理vue3项目设置代理 uniapp设置代理后还是无法请求后端接口 如果你在possman&#xff0c;apifox上测试接口都没有问题&#xff0c;但是在hbuild项目中设置代理后&#xff0c;还是…

多尺度特征提取:原理、应用与挑战

多尺度 多尺度特征提取&#xff1a;原理、应用与挑战**原理****应用****挑战****总结** 多尺度特征提取&#xff1a;原理、应用与挑战 在计算机视觉、自然语言处理和信号处理等领域&#xff0c;有效地捕捉和解析数据的多种尺度特性是至关重要的。多尺度特征提取是一种技术&…

数据治理:让数据提取更高效、更准确的关键

数据治理&#xff1a;让数据提取更高效、更准确的关键 在数字化浪潮的推动下&#xff0c;数据已成为企业运营和决策的重要基石。然而&#xff0c;单纯的数据堆积并不能带来实际的业务价值&#xff0c;关键在于如何高效、准确地提取并利用这些数据。而数据治理&#xff0c;作为…