数字与信息#

从古到今,我们总是被“数”(number)包围着,特别是计数系统为我们带来了极大的便利。我们可以使用如下形式表示任意进制的 \(n\) 位非负整数:

\[ p = \sum_{i=0}^n a_n t_n \]

其中,\(a_n\) 称为系数,\(t_n\) 称为位权。比如说,十进制的数字 \(457\) 可以表示为 \(4 * 10^2 + 5 * 10^1 + 7 * 10^0\)

由于信息论创始人香农指出:通信的最基本消息符号是二值符号。故而现代计算机采用的是二进制数字系统。信息的最小度量单位是 比特(bit),以 0 或者 1 表示两种状态。任何复杂的信息都可以按照一定的编码规则,最终变换为一组 01 构成的二进制数据,并能无损地保留信息含义。

计算机以 字节 (byte)组织各种信息,字节是计算机用于存储、传输、计算的基本计量单位。

备注

一个字节可以存储 8 位(bit)二进制数,即:

\[ 1 \text{byte} = 8 \text{bit} \]

数值、字符、模拟信号均可处理成二进制数。

数值信息编码#

整数值有“正数”与“负数”之分,而二进制数只有 01,故而约定字节的最高位作为符号位,用 0 表示 +(正号),1 表示 -(负号)。实数在计算机中被表示为浮点数。

字符信息编码#

字符(如汉字、英文等自然语言、控制字符等)被处理成为 统一码 (Unicode)。即建立了字符到数字的映射关系,比如汉字 “权”,被编码为数字 26435(需要再映射为二进制码)。

模拟信号编码#

在计算机中,将模拟信号(声音、图形、视频等,也被称为 连续信号)转换为二进制数的过程称为数字化处理。

采样

即将模拟信号表示成离散的符号序列。

采样过程是在固定的时间间隔内,对模拟信号截取一个振幅值,并用定长的二进制数表示。

截取模拟信号振幅值的过程称为采样。所得的的振幅值为采样值。

量化

指的是将信号样本值截取为最接近原信号的整数值过程。

声音的采样和量化输出的是数字序列。图像针对像素点采样方式可以输出二值图(一个像素点存储为一个比特)、灰度图(一个像素点存储为一个字节)、彩色图等(一个像素点存储为三个字节)。

指令#

指示

我们想要某些工作正常运作,需要一些给以它一些指示。

既然字符、数值、模拟信号均可被转换为二进制数字,那么同样可以将“指示”转换为二进制数字。被转换后的“指示”便是“指令”。

小结#

可以观看视频:如何数字化信息 了解更多。