计算机技术的应用,使得数据的处理方式发生了巨大的转变,要用计算机处理这些数据,需要对采集到的数据进行一定的转换。
采集方式
1.人工采集—观察、实验
2.机器采集
互联网—网络爬虫
传感器—自然信源
数字化
信息可用模拟信号或数字信号表达。
模拟信号:以连续变化的物理量存在,如水银温度表呈现的温度值,电流表指针指向的电流值等。模拟信号经过采样量化后可以得到数字信号。
数字信号:在取值上是离散的、不连续的信号,在信息技术中,这种信号表示的数据是指可被计算机存储、处理的二进制数据。
模拟信号与数字信号可相互转换,如将语音通过计算机的麦克风、声卡等设备存储在计算机中,这一过程实现了模拟信号转换成数字信号,这个过程也叫作数字化
数字化的过程主要经过采样、量化、编码三个步骤。图例如下:
采样:将信号从连续时间(空间)域上的模拟信号转换到离散时间
空间)域上的离散信号的过程,对于同一模拟信号,采样的时间间隔越小,采集到的信号样本数量越多。每秒的采样样本数叫作采样频率,单位用赫兹(Hz)表示。在相同的时间内,采样频率越高,采集的样本数量越多。
对于基于时间域的模拟信号,采样其实就是按一定的时间间隔取值。如下图
量化:将信号的连续取值近似为有限个离散值的过程。连续信号经过采样成为离散信号,离散信号经过量化后可用数值表示。
量化就是将采样到的信号用数字表示出来,即将模拟信号的波形转换为数字,量化的过程是先将整个幅度划分成有限个小幅度的集合,把落入某个范围内的样值归为一类,并赋予相同的量化值。过程如下图。
编码:是信息按照某种规则或格式,从一种形式转换为另一种形式的过程解码是编码的逆过程。
在数字化过程中,编码就是将量化后的十进制转化为二进制。
数制
我在日常生活中使用最多的是十进制,星期是7进制、月份是12进制,数据在计算机内部是以二进制方式进行存储和处理的。
进制是一种记数方式,亦称进位计数法或位值计数法。利用这种记数法,可以使用有限种数字符号来表示所有的数值。任何一种数制都包含两个基本要素:基和权。基又叫基数,是组成该数制的数码个数,一般来说,k进制的基数就是k,包含k个数字;权又叫权值,是指每一个数位上的1对应的数值,可以表示为基数的若干次幂。十进制数的基数为10,十进制数234中2的权值是10-,3的权值是10,4的权值是10,所以十进制数234还可表示为:2x102+3x10+4x10
关于进制的标志如下图。
十六进制:
进制数在实际使用中,由于位数太长,不便于书写和记忆,所以人们常采用十六进制数来表示。
十六进制数的特点是:
①由十六个基本数码组成,即0,1,2,…,9,A,B,C,D,E,F。
②采用逢十六进一的进位规则。
例如,B574H=11x16+5x16-+7x16’+4x16。与二进制相类似,H表示十六进制16’,16’,16’,16’是不同位置上的权值。
其实十六进制不是现在才有的,在中国古代已经采用了十六进制,当时的1斤为16两成语“半斤八两”就源于此。
那么二进制、十进制、十六进制之间的转换方式,我总结了如下图: