[原创](Modern C++)现代C++的关键性概念: 文件编码细节之一:BOM(Byte Order Mark, 字节顺序标记)

常用网名: 猪头三
出生日期: 1981.XX.XX
企鹅交流: 643439947
个人网站: 80x86汇编小站
编程生涯: 2001年~至今[共24年]
职业生涯: 22年
开发语言: C/C++、80x86ASM、PHP、Perl、Objective-C、Object Pascal、C#、Python
开发工具: Visual Studio、Delphi、XCode、Eclipse、C++ Builder
技能种类: 逆向 驱动 磁盘 文件
研发领域: Windows应用软件安全/Windows系统内核安全/Windows系统磁盘数据安全/macOS应用软件安全
项目经历: 磁盘性能优化/文件系统数据恢复/文件信息采集/敏感文件监测跟踪/网络安全检测

[序言]
在现代软件开发中, 文本文件的编码问题至关重要, 尤其是在不同平台、不同工具之间传输和处理文本文件时, 编码格式的不一致可能会导致乱码甚至解析错误. Unicode作为一种通用字符集, 为跨语言和跨平台的文本存储提供了解决方案, 其中BOM(Byte Order Mark, 字节顺序标记)是一个关键性的编码概念. 

[BOM作用]
BOM(Byte Order Mark)是Unicode编码中的一个特殊字节序列, 主要作用如下:

1> 指明文件的编码格式
   BOM可以用于指示文本文件使用的编码格式, 例如UTF-8、UTF-16(LE/BE)、UTF-32(LE/BE).

2> 区分字节序(大小端)
   在UTF-16和UTF-32编码中, 字符由两个或多个字节组成, 不同系统可能采用不同的字节存储顺序(大端BE 或 小端LE), BOM可用于标识文件的字节序, 避免解析错误.

3> 兼容性问题
   理论上UTF-8不需要BOM, 因为UTF-8以单字节方式存储ASCII兼容字符. 但某些Windows文字编辑器(如Notepad)会自动添加BOM(EF BB BF)作为标识, 以便区分UTF-8编码和ANSI

4> 防止误判编码格式
   在没有BOM的情况下, 某些软件可能会误判文件的编码格式.

[常见BOM标记]
编码格式      BOM 字节序列(十六进制)    字节长度
UTF-8          EF BB BF                            3 字节
UTF-16 LE   FF FE                                 2 字节
UTF-16 BE  FE FF                                  2 字节
UTF-32 LE   FF FE 00 00                       4 字节
UTF-32 BE   00 00 FE FF                      4 字节

[ANSI格式的文件不需要BOM]
ANSI不是一种具体的编码, 而是Windows术语, 指"本地代码页编码", 不需要额外的BOM标识. 

Windows 简体中文(GBK/CP936)
Windows 繁体中文(Big5/CP950)
Windows 西欧语言(ISO-8859-1/CP1252)
Windows 日文(Shift-JIS/CP932)

Windows 记事本里"ANSI"选项实际上是本地代码页, 也就是默认使用本地语言的代码页. 比如日文Windows系统, 默认就使用(Shift-JIS/CP932). ANSI仅适用于Windows本地环境, 不适用于跨平台开发, 因此在国际化应用中, 建议使用UTF-8(无 BOM).

[跨平台问题]
1> UTF-8文件通常不建议使用BOM
   在跨平台开发中, 推荐使用不带BOM的UTF-8编码, 特别是用于存储源代码和配置文件.

2> UTF-8源代码文件避免BOM
   C++源代码文件(UTF-8 编码)如果带BOM, 可能会导致某些编译器(如 GCC)解析错误.

3> Windows Visual Studio默认使用带BOM的UTF-8
   在Windows开发环境(如Visual Studio 2022)中, 默认情况下, UTF-8源代码文件会包含BOM. 这可能导致代码在Linux或macOS上出现兼容性问题.

4> Linux处理Windows生成的UTF-8文件可能出错
   在Linux或macOS处理带BOM的UTF-8文件时, 可能会因BOM被误识别为文本内容而导致解析错误.

5> 读取文本文件时, 可根据实际情况和需求, 检查并移除BOM
   比如: 在编写C++代码时, 如果需要读取UTF-8文件, 应检查开头是否有BOM, 并在必要时移除它.

[BOM 标识可以被移除]
在某些情况下, 读取文本文件时BOM可能会被当作普通字符读取, 导致解析问题. 例如:

* 二进制文件处理
  如果按二进制模式读取UTF-8、UTF-16 或 UTF-32文件, BOM也会被读取出来.

[总结]
在现代C++开发中, 正确理解和处理BOM能有效避免编码问题, 确保代码在不同平台上的兼容性和可读性. 因此, 在编写和读取文本文件时, 建议尽量使用 UTF-8(无 BOM)格式, 以确保最大程度的跨平台兼容性.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/894861.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LQB(0)-python-基础知识

一、Python开发环境与基础知识 python解释器:用于解释python代码 方式: 1.直接安装python解释器 2.安装Anaconda管理python环境 python开发环境:用于编写python代码 1.vscode 2.pycharm # 3.安装Anaconda后可以使用网页版的jupyter n…

C# 中记录(Record)详解

从C#9.0开始,我们有了一个有趣的语法糖:记录(record)   为什么提供记录? 开发过程中,我们往往会创建一些简单的实体,它们仅仅拥有一些简单的属性,可能还有几个简单的方法,比如DTO等等&#xf…

使用 CSS 实现透明效果

在 CSS 中,实现透明效果有几种方法,具体使用哪种方法取决于具体需求。以下是一些常见的方法: 使用 opacity 属性: opacity 属性可以设置整个元素的透明度,包括其所有的子元素。 .transparent { opacity: 0.5; /* 0 表…

C语言:函数栈帧的创建和销毁

目录 1.什么是函数栈帧2.理解函数栈帧能解决什么问题3.函数栈帧的创建和销毁的过程解析3.1 什么是栈3.2 认识相关寄存器和汇编指令3.3 解析函数栈帧的创建和销毁过程3.3.1 准备环境3.3.2 函数的调用堆栈3.3.3 转到反汇编3.3.4 函数栈帧的创建和销毁 1.什么是函数栈帧 在写C语言…

25/2/6 <机器人基础> 运动学中各连杆的变换矩阵求法

变换矩阵 机器人通常包含多个关节和连杆,每个关节和连杆都有自己的局部坐标系。变换矩阵能够将一个点或向量从一个坐标系转换到另一个坐标系,从而实现对机器人各个部件位置和姿态的统一描述 变换矩阵能够将复杂的运动分解为旋转和平移的组合。通过矩阵乘…

AllData数据中台核心菜单十二:数据同步平台

🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。 ✨奥零数据科技官网:…

【FPGA】 MIPS 12条整数指令 【3】

实现乘除 修改框架 EX:实现带符号乘除法和无符号乘除法 HiLo寄存器:用于存放乘法和除法的运算结果。Hi、Lo为32bit寄存器。电路描述与实现RegFile思想一致 仿真 代码 DataMem.v include "define.v"; module DataMem(input wire clk,input…

文件基础IO

理解"文件" 1-1 狭义理解 文件在磁盘里磁盘是永久性存储介质,因此文件在磁盘上的存储是永久性的磁盘是外设(即是输出设备也是输入设备)磁盘上的文件 本质是对文件的所有操作,都是对外设的输入和输出简称IO 1-2 广义理…

Unity 简易的UI框架

核心内容 UIType.cs namespace MYTOOL.UI {/// <summary>/// UI层级/// </summary>public enum UILayer{/// <summary>/// 主界面层/// </summary>MainUI 0,/// <summary>/// 普通界面层/// </summary>NormalUI 1,/// <summary>/…

VUE2双向绑定的原理

文章目录 VUE2双向绑定的原理1. 什么是双向绑定2. 双向绑定的原理2.1 ViewModel的重要作用2.2 双向绑定的流程 3. 双向绑定的实现3.1 data响应化处理3.2 Compile编译3.3 依赖收集 VUE2双向绑定的原理 1. 什么是双向绑定 讲双向绑定先讲单项绑定&#xff0c;啥叫单项绑定&…

4G核心网的演变与创新:从传统到虚拟化的跨越

4G核心网 随着移动通信技术的不断发展&#xff0c;4G核心网已经经历了从传统的硬件密集型架构到现代化、虚拟化网络架构的重大转型。这一演变不仅提升了网络的灵活性和可扩展性&#xff0c;也为未来的5G、物联网&#xff08;LOT&#xff09;和边缘计算等技术的发展奠定了基础。…

HTML排版标签、语义化标签、块级和行内元素详解

目录 前言 一、HTML中的排版标签 1. 文本相关标签 1.1 标题标签 ~ 1.2 段落标签 1.3 强调和加粗 1.4 换行标签 1.5 水平线标签 二、HTML中的语义化标签 2.1 语义化标签概述 2.2 常见的语义化标签 示例&#xff08;核心代码部分&#xff09;&#xff1a; 三、HTM…

【字节青训营-7】:初探 Kitex 字节微服务框架(使用ETCD进行服务注册与发现)

本文目录 一、Kitex概述二、第一个Kitex应用三、IDL四、服务注册与发现 一、Kitex概述 长话短说&#xff0c;就是字节跳动内部的 Golang 微服务 RPC 框架&#xff0c;具有高性能、强可扩展的特点&#xff0c;在字节内部已广泛使用。 如果对微服务性能有要求&#xff0c;又希望…

【数学】矩阵、向量(内含矩阵乘法C++)

目录 一、前置知识&#xff1a;向量&#xff08;一列或一行的矩阵&#xff09;、矩阵1. 行向量2. 列向量3. 向量其余基本概念4. 矩阵基本概念5. 关于它们的细节 二、运算1. 转置&#xff08;1&#xff09;定义&#xff08;2&#xff09;性质 2. 矩阵&#xff08;向量&#xff0…

浅尝yolo11全程记录1-准备环境+官网模型推理(个人备份)

准备工作&#xff08;虚拟环境、导入项目&#xff09; 安装Anaconda 主要是为了创建和管理虚拟环境&#xff0c;在pycharm里按照项目里的requirments.txt安装依赖的时候&#xff0c;使用虚拟环境会好很多&#xff08;我记得不用Anaconda也可以直接在pycharm的terminal里头创建…

5.攻防世界 fileinclude

进入题目页面如下 提示flag在flag.php ctrlu&#xff0c;查看源码 给出了一段PHP代码&#xff0c;进行代码审计 <?php // 检查是否开启了错误显示功能 if( !ini_get(display_errors) ) {// 如果没有开启&#xff0c;则将错误显示功能设置为开启状态ini_set(display_error…

红包雨项目前端部分

创建项目 pnpm i -g vue/cli vue create red_pakage pnpm i sass sass-locader -D pnpm i --save normalize.css pnpm i --save-dev postcss-px-to-viewportpnpm i vantlatest-v2 -S pnpm i babel-plugin-import -Dhttps://vant.pro/vant/v2/#/zh-CN/<van-button click&…

蓝桥杯嵌入式备赛(三)—— LED +按键 + LCD

目录 一、LED1、原理图介绍2、程序代码 二、按键1、原理图介绍2、程序代码 三、LCD1、原理图介绍2、程序代码 一、LED 1、原理图介绍 如果所示&#xff0c;STM32G431RBT6中有八个LED&#xff0c;由八个GPIO控制&#xff0c;分别为PC8-15&#xff0c;当输出为低电平时点亮。其中…

[Java基础]函数式编程

Lambda函数 JDK8新增的语法形式, 使用Lambda函数替代某些匿名内部类对象&#xff0c;从而让程序代码更简洁&#xff0c;可读性更好。 基本使用 lambda表达式只能简化函数式接口的匿名内部类写法 // 1.定义抽象类 abstract class Animal {public abstract void crt(); }publi…

Vim 多窗口编辑及文件对比

水平分割 :split 默认使用水平分割的方式。 :split :sp 垂直分割 :vsplit :vs 带文件的分割 :split 文件名 :sp 文件名 在光标所在的窗口&#xff0c;输入分割窗口命令就会对那个窗口进行分割。 切换窗口 Ctrlw 切换正在编辑的窗口 快速分割窗口 Ctrlwn 快速分割当前…