C语言中,让人又爱又恨的字符串编码

引言

在C语言的世界里,字符串编码是一个让人既爱又恨的话题。
所有的打印信息,都是以字符串输出的。但是,大家在编码的时候,经常会遇到一些情况,稍不注意,就会导致显示出乱码,到了客户那里,就尴尬了。
今天,我们就来聊聊这场混战中的三位主角:Unicode、ANSI和UTF-8。

编码格式简介

ANSI编码

ANSI编码,全称“美国国家标准协会编码”,是一种基于单字节的编码方式。它在西欧语言中大行其道,因为一个字节足以表示所有的字符。
所以,多数时候,只要我们打印的时候,用英文字母,通常就不会出问题。
但是一个字节的编码,在面对中文、日文等复杂字符时,它就完全不够了。于是就有了扩展字符编码。继续往下看。

Unicode编码

Unicode编码,旨在统一全球所有字符的编码方式,它是一个多字节的编码系统。Unicode的出现,让世界上的每个字符都有一个唯一的编码,但这也意味着它需要更多的存储空间。
如果固定是4字节,即32位,那么就称之为UTF-32编码。
UTF-16编码,在大多少情况下,占用2个字节,有时候为了扩展,也会占用4字节。
但是这两种编码,占用存储空间比较大。
更加常用的,则是UTF-8编码,继续往下看。

UTF-8编码

UTF-8编码,是Unicode的一种实现方式,它是一种可变长度的编码系统。
UTF-8的特点是它兼容ASCII,对于英文字符,UTF-8和ASCII是相同的,占用1个字节。对于其他字符,它可以表示2到4个字节。
相比UTF-16和UTF-32而言,占用空间就小多了。因此也更加受欢迎。当然,还有其它一些方面的原因。

编码格式的C语言实现

ANSI编码

在C语言中,ANSI编码通常通过char类型来处理。以下是一个简单的示例:

char ansiString[] = "Hello, World!";

这里,ansiString是一个ANSI字符串,它在大多数西欧语言中都能正常工作。

Unicode编码

Unicode在C语言中的处理稍微复杂一些,通常需要使用wchar_t类型。以下是一个Unicode字符串的例子:

wchar_t unicodeString[] = L"Hello, 世界!";

这里的L前缀告诉编译器这是一个宽字符字符串。在Windows平台上,这通常是UTF-16编码。

UTF-8编码

UTF-8在C语言中的处理与ANSI类似,但是需要确保编译器正确处理UTF-8编码。以下是一个UTF-8字符串的例子:

char utf8String[] = u8"Hello, 世界!";

这里的u8前缀是某些编译器用来表示UTF-8字符串的。

编码转换示例

在实际应用中,我们经常需要在不同的编码之间进行转换。

ANSI和Unicode之间的转换

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <locale.h>
#include <windows.h>int main()
{setlocale(LC_ALL, ""); // 设置本地化环境const char* ansiString = "世界,你好!";wchar_t* unicodeString = NULL;// ANSI到Unicodeint unicodeLength = MultiByteToWideChar(CP_ACP, 0, ansiString, -1, NULL, 0);unicodeString = (wchar_t*)malloc(unicodeLength * sizeof(wchar_t));MultiByteToWideChar(CP_ACP, 0, ansiString, -1, unicodeString, unicodeLength);printf("ANSI: %s\n", ansiString);wprintf(L"Unicode: %ls\n", unicodeString);free(unicodeString);return 0;
}

以上代码,可以直接复制编译和运行,运行结果如下:
在这里插入图片描述

Unicode和Utf-8之间的转换

#include <windows.h>
#include <stdlib.h>
#include <stdio.h>
#include <locale.h>int main() {// 设置本地化环境setlocale(LC_ALL, "en_US.UTF-8");// Unicode字符串const wchar_t* unicodeString = L"世界,你好!";// 获取转换为UTF-8所需的缓冲区大小int utf8Length = WideCharToMultiByte(CP_UTF8, 0, unicodeString, -1, NULL, 0, NULL, NULL);if (utf8Length == 0) {printf("WideCharToMultiByte failed with error %d\n", GetLastError());return 1;}// 分配缓冲区char* utf8String = (char*)malloc(utf8Length * sizeof(char));if (utf8String == NULL) {printf("Memory allocation failed\n");return 1;}// 执行转换int result = WideCharToMultiByte(CP_UTF8, 0, unicodeString, -1, utf8String, utf8Length, NULL, NULL);if (result == 0) {printf("WideCharToMultiByte failed with error %d\n", GetLastError());free(utf8String);return 1;}// 输出结果printf("UTF-8 string: %s\n", utf8String); wprintf(L"Unicode: %ls\n", unicodeString);    // 释放内存free(utf8String);return 0;
}

以上代码,可以直接复制编译和运行,运行结果如下:
在这里插入图片描述

总结

在C语言中处理字符串编码,这个过程可能会有些复杂,但一旦掌握了这些知识,你就能在不同语言和平台之间自如地穿梭。
实际上,字符串编码的内容比上面还要多,本文算是浅尝辄止吧。有时间,真可以写成一篇更深入的文章。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/60585.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Javaweb—Ajax与jQuery请求

文章目录 十一.Javaweb—Ajax与jQuery请求11.1 异步/同步请求11.2 异步请求案例案例一&#xff1a;案例二&#xff1a; 十一.Javaweb—Ajax与jQuery请求 Ajax: 全称Asynchronous JavaScript And XML&#xff0c;异步的JavaScript和XML。 11.1 异步/同步请求 【往期文章】 同…

单片机中的BootLoader(重要的概念讲解)

文章目录 一、链接地址和执行地址1. 链接地址(Load Address)2. 执行地址(Execution Address)链接地址与执行地址的关系实际工作流程总结二、相对跳转和绝对跳转1. 相对跳转(Relative Jump)2. 绝对跳转(Absolute Jump)3. `BX` 和 `BL` 指令总结三、散列文件1. 散列文件的…

macOS解决U盘装完系统容量变小的问题

发现原来256GB容量的U盘在mac电脑上只显示34GB&#xff0c;想起来之前用该U盘装过系统&#xff0c;最终搜到了以下解决方案&#xff0c;在此记录&#xff1a; (1) 查看盘符列表&#xff0c;找到需要格式化的U盘&#xff0c;假设为disk4 diskutil list(2) 卸载分区disk4 disk…

Linux 系统管理和监控命令---- auditctl命令

文章目录 基本语法常用参数和选项添加规则删除规则查看规则控制审计系统其他选项 使用示例启用审计系统禁用审计系统添加文件监视规则删除文件监视规则添加系统调用规则删除系统调用规则列出当前的审计规则 结合 ausearch 和 aureport查询审计日志生成审计报告 总结 auditctl 是…

知识图谱6:neo4j查询语句

neo4j增删改查 常见查询语句 1、查询所有节点和关系 //查询所有节点和关系 MATCH (n)-[r]->(m) RETURN n, r, m 2、查询某个知识图谱的全部 3、查询 MATCH (n:zhongyao {name: "艾虎"})-[r]->(m) RETURN n, r, m4、统计 // 查询边的个数 MATCH ()-[r]->…

【计算机网络】UDP网络程序

一、服务端 1.udpServer.hpp 此文件负责实现一个udp服务器 #pragma once#include <iostream> #include <string> #include <cstdlib> #include <cstring> #include <functional> #include <strings.h> #include <unistd.h> #incl…

【027B】基于51单片机模拟电梯(点阵)【Proteus仿真+Keil程序+报告+原理图】

☆、设计硬件组成&#xff1a;51单片机最小系统8*8点阵显示按键设置LED灯。 1、设计采用STC89C51/52、AT89C51/52、AT89S51/52作为主控芯片&#xff1b; 2、采用8*8点阵显示楼层和电梯运作&#xff08;上升、下降&#xff09;指示&#xff0c;同时具有八个楼层指示灯&#xf…

nginx openresty lua-resty-http 使用的一些问题记录

需求背景 需求是使用 nginx 做一个 https 服务的代理 nginx 收到 http 请求后&#xff0c;需要修改 body 中的某些参数值&#xff0c;然后将修改后的数据发送到目标服务器&#xff08;https&#xff09; 本来以为很简单的需求&#xff0c;结果中间出现了不少岔子&#xff0c;这…

vue2+ element ui 集成pdfjs-dist

目录 1. 下载Pdf.js1.1 下载1.2 修改配置1.2.1 将pdfjs-3.8.162-dist复制到项目中1.2.2 解决跨域问题1.2.3 将pdf.worker.js文件复制到public目录下1.2.4 安装 pdfjs-dist1.2.5 前端vue代码(示例) 3. 参考资料 1. 下载Pdf.js 1.1 下载 下载链接&#xff08;官方&#xff09;需…

「Mac玩转仓颉内测版2」入门篇2 - 编写第一个Cangjie程序

本篇详细介绍在Mac系统上创建首个Cangjie项目并编写、运行第一个Cangjie程序的全过程。内容涵盖项目创建、代码编写、程序运行与调试&#xff0c;以及代码修改后的重新运行。通过本篇&#xff0c;掌握Cangjie项目的基本操作&#xff0c;进一步巩固开发环境的配置&#xff0c;迈…

@ComponentScan 和 @SpringBootApplication 同时使用出现问题

1 同时使用ComponentScan和SpringBootApplication&#xff0c;会导致SpringBootApplication所带的注解失效&#xff0c;请注意这个问题。我在使用mybatis时出现了找不到bean的问题&#xff0c;使用了ComponentScan导致Controller没有扫描到。 2 在springboot下使用mybatis时&a…

接单渠道,程序员看这篇就够了。

接单、兼职&#xff0c;有团队没单子&#xff1f;僧多粥少&#xff0c;苦矣。 很多程序员&#xff0c;有时间、有技术&#xff0c;有steam&#xff08;咳咳&#xff0c;不对&#xff0c;是team&#xff09;。但是&#xff0c;可能还是挣不到什么钱&#xff0c;何也&#xff1f…

【深度学习】使用硬件加速模型训练速度

一、 单机器单GPU 特点 配置简单&#xff1a;无需多 GPU 或分布式环境的复杂配置&#xff0c;适合资源有限的场景。适合小规模模型&#xff1a;对于计算量不大的模型&#xff08;如中小型 CNN、RNN&#xff09;&#xff0c;单 GPU 可以处理大多数常见任务。 优势 简单易用&…

CSS:导航栏三角箭头

用CSS实现导航流程图的样式。可根据自己的需求进行修改&#xff0c;代码精略的写了一下。 注&#xff1a;场景一和场景二在分辨率比较低的情况下会有一个1px的缝隙不太优雅&#xff0c;自行处理。有个方法是直接在每个外面包一个DIV&#xff0c;用动态样式设置底色。 场景一、…

Qt_day4_Qt_UI设计

目录 Qt_UI设计 1. Designer 设计师&#xff08;掌握&#xff09; 2. Layout 布局&#xff08;重点&#xff09; 2.1 基本使用 2.2 高级用法 2.3 代码布局&#xff08;了解&#xff09; 3. Designer与C的关系&#xff08;熟悉&#xff09; 4. 基本组件&#xff08;掌握…

sql专题 之 count()区别

文章目录 count&#xff08;1&#xff09;count(*)count(列名)比较 count&#xff08;1&#xff09; count(1) 是对结果集中的每一行计数&#xff0c;不关注具体的列&#xff0c;只是计数行数。 每一行都计为常数1 等同于 count(*)&#xff0c;性能上基本一致&#xff0c;但有时…

嵌入式课程day14-C语言指针进阶

目录 10.3指针进阶 10.3.1数组指针 10.3.2指针数组 10.3.3函数指针 10.3.4指针函数 10.3.5函数指针的实际应用案例qsort函数&#xff1a; 10.3指针进阶 10.3.1数组指针 是指针 --- 指向对象的类型是 数组 int [3] 数组指针一般用于指向二维数组里面的一行&#xff0c;…

蓝桥杯模拟

【问题描述】 如果一个数 p 是个质数&#xff0c;同时又是整数 a 的约数&#xff0c;则 p 称为 a 的一个质因数。 请问 2024 有多少个质因数。 【答案提交】 这是一道结果填空的题&#xff0c;你只需要算出结果后提交即可。本题的结果为一个整数&#xff0c;在提交答案时只…

Ruby编程语言全景解析:从基础到进阶

Ruby是一种动态的、面向对象的编程语言&#xff0c;以其优雅的语法和强大的功能而闻名于世。自从1995年由日本程序员松本行弘&#xff08;Yukihiro Matsumoto&#xff09;发布以来&#xff0c;Ruby便迅速成为了开发者中颇受欢迎的编程语言之一。无论是构建简单的脚本还是复杂的…

数据结构的时间复杂度和空间复杂度

目录 时间复杂度 空间复杂度 时间复杂度 基本操作的执行次数&#xff0c;为时间复杂度。 我们使用大O的渐进表示法来表示时间复杂度。 怎么使用&#xff1f; 先看例子&#xff1a; 在这个例子中&#xff0c; 基本操作为变量 count 的 加加 操作&#xff0c;并且&#xff0c;执行…