计算机以二进制处理信息,但二进制对人类并不友好。比如说我们规定用二进制值 01000001 表示字母’A’,显然通过键盘输入或屏幕阅读此数据而理解它为字母A,是比较困难的。为了有效的使用信息,先驱者们创建了一种称为ASCII码的交换代码,全称是美国信息交换标准代码。ASCII码使用指定的7位或8位二进制数组合来表示128或256种可能的字符。标准ASCII码也叫基础ASCII码,使用7位二进制数(剩下的1位二进制为0)来表示所有的大写和小写字母,数字0到9、标点符号,以及在美式英语中使用的特殊控制字符。
其中:
0-31及127:33个控制字符
这些字符在图一第1列标示,它们并没有特定的图形显示,但会依不同的应用程序,而对文本显示有不同的影响。如:
- 控制符:LF(换行)、CR(回车)、FF(换页)、DEL(删除)、BS(退格)、BEL(响铃)等;
- 通信专用字符:SOH(文头)、EOT(文尾)、ACK(确认)等;
- 8(退格)、9(水平制表符)、10(换行符)、13(回车符)等。
32-126:95个可打印字符
- 32:空格
- 48-57:0到9十个阿拉伯数字
- 65-90:26个大写英文字母
- 97-122:26个小写英文字母
- 其余为一些标点符号、运算符号等。
128-255:扩展ASCII码
- 许多基于x86的系统都支持使用扩展ASCII。
- 扩展ASCII码允许将每个字符的第8位用于确定附加的128个特殊符号字符、外来语字母和图形符号。
字符与编码
基于这些基础知识,我们编写了一个杂乱的程序,但可以帮助我们对字符与编码的关系建立一个雏形。
#include <stdio.h>int main()
{printf("%cello%c%corld!%c", 72, 44, 119, 10);printf("%c%c%c%c%c\n", 48, 49, 50, 51, 52);printf("ASCII\n");return 0;
}
现在,一定要理解字符'0'
与数字0
的区别,我们所见的、可读的、可书写的“数字”,它们都是数值字符化。数值0
的字符化就是字符'0
’,它的ASCII编码是48
;控制台上输出的 1234
,实际是编码为49 50 51 52
的几个字符;而数值0的编码就是0
,即图中标示为 NULL
的值;数值9的编码就是9,是图中以 HT 标示的值。
#include <stdio.h>int main()
{char char9 = '9'; // 字符9,它的ASCII编码为57char char9_2 = 57; // 字符9的不直观表示,ASCII表中57对应的字符是9int num9 = 9; // 数值9,它的ASCII编码为9printf("%d %d\n", char9, char9_2);printf("%c %c\n", char9, char9_2);// 字符9与数值9不一样num9 == char9 ? printf("true") : printf("false");printf("\n");// 将字符9转换为数值9int char_to_num1 = (char9 - '0'); // 与字符'0'相减int char_to_num2 = (char9_2 - 48); // 正好对应相应数值编码num9 == char_to_num1 ? printf("true\n") : printf("false\n");num9 == char_to_num2 ? printf("true\n") : printf("false\n");return 0;
}
打印ASCII码表
在编写第一版程序前我们先总结一下,标准ASCII码表有128个字符,其中33个是不可显的控制字符,也就是说用printf函数打印后在屏幕上不可见;另外95个是可见字符,即可打印字符;后面的128个字符属于ASCII码扩展表,我们先不予考虑。这里一个潜在的关键点是:编码从0开始并且连续的!
这表示我们可以使用循环语句来处理,下面是最简单的第一版。
#include <stdio.h>int main()
{for (int i = 0; i < 128; ++i){printf("%c ", i);}return 0;
}
在循环体中我们以%c
控制符打印数值对应的ASCII码,从程序运行结果来看,输出有些杂乱,不可显字符被显示为空心框了。也许你在网上查询过ASCII码表的图示,对于控制字符,有些会显示出一些有趣的形状,这与字体有关,不同的字体对应的编码可能是一种有趣的字符,我们可以设置一下控制台的字体,让其显示更加友好,但这不能改变它们是控制字符的本质。
此外,还需要注意到这些情况:
- 我们在循环体中并没有输出换行符,但第一行在输出一些字符后换行了。
- 我们无法有效的使用它查询信息,比如说字母’X’对应的编码是多少,
- 在程序运行过程中,你可能会听到“叮咚”一声铃响。
我们先把程序改进一些,让输出变得美观一些,然后再来解释这些现象,下面是我们改进后的第2版。
#include <stdio.h>int main()
{printf("DEC\t HEX\t CHR\n");printf("--------------------\n");for (int i = 0; i < 128; i += 1){printf("%d\t %x\t %c\n", i, i, i);}return 0;
}
看一下运行结果图,感觉还不错。这一版中,我们首先使用printf函数打印了一个表头,该表格有三列,分别用于显示当前数值的十进制,十六进制(用格式控制符%x
指示)以及字符表示。我们使用水平制表符’\t’控制表格的列间距,'\t’后面多出一个空格,只是为了使代码看起来更清晰。在循环体中,由于printf函数使用了三个控制字符,因此需要将当前数值传值三次。在CHR列,有些控制字符在当前字体下仍然没有对应的显示字符。同时还要注意第10行与第11行之间多了一个空行,这是为什么呢?
查阅一下ASCII码表,我们会发现数值10代表换行控制符
。当以%c格式符打印数值10时,相当于执行了一次换行操作,而在循环体中使用printf输出字符时又追了一个\n,因此中间多出了一个空行。同时ASCII码值为7的控制字符代表响铃,其转义字符用’\a’表示,这就是你能听到“叮咚”一声响的原因。你可以使用下面两行响铃代码测试一下。
#include <stdio.h>int main()
{// 第1次响铃printf("\a");// 相当于延时一定时间(糟糕的延时代码),否则两次响铃可能只会听到一次。for (int i = 0; i < 999999999; i++); // 注意:这里是空语句printf("here");// 第二次响铃printf("%c", 7);return 0;
}
现在回到主线任务,这一版的程序已经相当友好了,只是假设控制台是一张纸的话,这样的输出有些太浪费了,毕竟右边空白了那么多,我们完全可以按两列输出。
#include <stdio.h>int main()
{printf("DEC\t HEX\t CHR\t\t DEC\t HEX\t CHR\n");printf("----------------------------------------------------\n");for (int i = 0; i < 128; i += 2){printf("%d\t %x\t %c\t\t ", i, i, i);printf("%d\t %x\t %c\n", i + 1, i + 1, i + 1);}return 0;
}
看一下输出效果。编码10(LF)代表换行,程序进行换行后,导致下一个输出(编码11)错乱,这是美中不足的地方。关键的一点是:换行后,编码11并没有从下一行的开头输出,而是直接跳转到下一行的当前位置。
如果把键盘想像为打字机,它的当前位置就是将要书写的字符位置,再把控制台想像为纸张,在Windows下换行的意思就是让纸向上移动一行,但打字机的书写针头位置并没有改变,这就是为什么11会在这里输出的原因。在Windows下,让打字机回到纸张左边的命令是“回车”,即ASCII编码值为13(CR)的值。所以,你想要跳转到下一行开头输出时,那么对应的控制命令就是回车换行(CRLF)
。但在有些系统下,可能仅仅一下LF命令就能完成同样的操作。
这篇文章我是用 Microsoft Visual Code 编写的,我们可以在右下角的状态栏上看到它控制文本文件的换行命令是CRLF
。
现在我们尝试将其按三列输出,看看还会有什么问题。
#include <stdio.h>int main()
{printf( "DEC\tHEX\tCHR\t DEC\tHEX\tCHR\t DEC\tHEX\tCHR\n" );printf( "----------------------------------""---------------------------------\n" );for ( int i = 0; i < 128; i += 3 ){printf( "%d\t%x\t%c\t ", i, i, i );printf( "%d\t%x\t%c\t ", i+1, i+1, i+1 );printf( "%d\t%x\t%c\n", i+2, i+2, i+2 );}printf( "\n" );return 0;
}
这次的输出前半部分太凌乱了!
- 数值10/11/14并没有与列起始处对齐。
- 数值12消失了!
- 13居然在14的后面输出!
先来解决10没有对齐到列的问题。数值9代表的是控制字符'\t'
,这使得对于9的输出,相当于在后面插入一个制表符,即当程序按"%c"格式输出它时,相当于增加了水平间距,这导致后面10的输出没有对齐。为了解决这个问题,我们在按"%c"输出9时,把9替换为32(空格),相当于消除的制表符自身的影响。同理,编码10会引起换行操作,我们也将它替换空格字符。对于消失的12,它是控制符换页的意思,我们也将它替换为空格即可。
最终的成果
#include <stdio.h>int main()
{int i;int c1, c2;printf("DEC\tHEX\tCHR\t DEC\tHEX\tCHR\t DEC\tHEX\tCHR\n");printf("---------------------------------""----------------------------------\n");for (i = 0; i < 128; i += 3){if (i == 9 || i == 12 || i == 27){c1 = 32;c2 = 32;}else{c1 = i;c2 = i + 1;}// 当前行从编码i开始,连续输出3个编码,i, i+1, i+2// if语句将影响输出格式的控制字符i转换为了空格printf("%d\t0x%x\t%c\t ", i, i, c1);printf("%d\t0x%x\t%c\t ", i + 1, i + 1, c2);if ((i + 2) < 128)printf("%d\t0x%x\t%c\n", i + 2, i + 2, i + 2);}return 0;
}
练习
- 编写程序将一个小写字母转换为相应的大写字母。
- 将控制台重置回之前的设置。