术语表

大多数概念来源于 维基百科

Character
字符

在电脑和电信领域中,字符是一个信息单位。对使用字母系统或音节文字等自然语言,它大约对应为一个音位、类音位的单位或符号。简单来讲就是一个汉字、假名、韩文字……,或是一个英文、其他西方语言的字母。

字符的例子有:字母、数字系统或标点符号。另外有所谓控制字符的概念,它是指:并不对应到自然语言中的某个特定符号,而是对应到语言中一些用来处理文句的概念(类似排版)。例子为打印机或其它显示设备的命令,如 Enter 或 Tab。

glyph
字形

的形体。GB/T 16964 中定义字形为“一个可以辨认的抽象的图形符号,它不依赖于任何特定的设计”。在语言学中,语意 的最基本单位,即语素;字形是指为了表达这个意义的具体呈现。

同一 可以有不同的字形,而不影响其表达的意思,例如拉丁字母第一个字母可以写作 a 或 ɑ,汉字中的 “強/强”、“戶/户/戸”。

每个汉字均有三个属性:形状(形)、声韵(音)、意义(义),统称“形音义”。

Unicode
统一码

Unicode,联盟 官方中文名称为统一码,是计算机科学领域的业界标准。它整理、编码了世界上大部分的文字系统,使得电脑可以用更为简单的方式来呈现和处理文字。

在文字处理方面,统一码为每一个 字符而非字形 定义唯一的代码(即一个整数)。换句话说,统一码以一种抽象的方式(即数字)来处理字符,并将视觉上的演绎工作(例如字体大小、外观形状、字体形态、文体等)留给其他软件来处理,例如网页浏览器或是文字处理器。

在表示一个 Unicode 的字符时,通常会用 “U+” 然后紧接着一组十六进制的数字来表示这一个字符。

Unicode 的实现方式称为 Unicode 转换格式(Unicode Transformation Format,简称为 UTF)。

code point
code position
码点
码位
编码位置

指的是组成码空间(或 代码页)的数值。简单点说,指在某个字符集中,根据某种编码规则将字符编码后得到的值。

比如在 ASCII 字符集中,字母 A 经过 ASCII 编码得到的值是 65,那么 65 就是字符 A 在 ASCII 字符集中的码点。

Character Encoding
字符编码

字符编码是指一种映射规则,根据这个映射规则可以将某个字符映射成其他形式的数据以便在计算机中存储和传输。

常用的字符集编码规则有 UTF-8 编码、GBK 编码、Big5 编码等。