3.6. Big5

Big5 是在 CCCII 不為政府單位採納, 國家頒布的中文標準碼又不堪用的情況下, 在民國 73 年,由台北市電腦公會 主導,聯合了十三家業者, 共同制定,又稱為 Big5_1984 (包括 5401 個常用字、7652 個次常用字、以及 441 個各式符號)。 Big5 的字符空間是個非連續的 94x157 矩陣,其容量為 14,758 位。

Big5_ETen 為倚天中文在原本的 Big5 碼上, 增加了日文、俄文、輸入法特殊符號、七個擴充字、以及表格符號區。

CP950 是微軟在原本的 Big5 碼上, 全名是 Microsoft Windows Codepage 950 (Traditional Chinese Big5), 增加了七個擴充字、以及表格符號區。

如不去考慮特殊符號,及後來的七個擴充字, 將所有的字分成兩大群: 常用字區與次常用字區, 每一個字區分別用筆畫來排序, 同一個筆畫的字,依部首來排。

目前主推的是 Big5_ETen,每個字由兩個位元組(2 bytes)組成, 其第一位元組編碼範圍為 0xA1-0xF9, 第二位元組編碼範圍為 0x40-0x7E 與 0xA1-0xFE, 總計收入 13868 個字 (包括 5401 個常用字、7652 個次常用字、7 個擴充字、以及 808 個各式符號) ,其中可以大致劃分為以下幾個字區:

Note: 由於 CNS11643-1992 初期的不堪用, Big5 雖然不是國家標準,但是在台灣比 CNS11643-1992 的國家規格用的更廣。換句話說,Big5 是台灣的業界標準 (de facto standard)。

Table 3-2. Big5 字區與編碼範圍

第一位元組 第二位元組 字區 制定
A1-A2 40-7E, A1-FE 各種符號區 1984
A3 40-7E, A1-BF 各種符號區 (包括標點符號、ASCII 全形符號、注音符號等) 1984
A3 E1 歐元符號 CP950
A4-C5 40-7E, A1-FE 常用字區 1984
C6 40-7E 常用字區 1984
C6 A1-FE 罕用符號區 倚天
C7 40-7E, A1-FE 罕用符號區 (包括日文、俄文等) 倚天
C8 40-7E, A1-D3 罕用符號區 (包括俄文、輸入法特殊符號等) 倚天
C9-F8 40-7E, A1-FE 次常用字區 1984
F9 40-7E, A1-D5 次常用字區 1984
F9 D6-DC 七個擴充字 倚天
F9 DD-FE 表格符號區 倚天

Table 3-3. 七個擴充字

擴充字 Big5 碼 Unicode 碼 Big5_1984 的同義字
0xF9D6 0x88CF
0xF9D7 0x92B9
0xF9D8 0x7CA7
0xF9D9 0x58BB
0xF9DA 0x6052
0xF9DB 0x7881
0xF9DC 0x5AFA

Big5 有兩個重複編碼的漢字,分別是 A461, C94a 和 DCD1, DDFC, CNS11643-1992 刪除了第二次編碼的漢字(C94A 和 DDFC)。

Big5 最大的問題是字數不足。政府部分單位雖然有交換造字區, 卻沒有把新的標準制定出來並大力推廣,雖然相繼出現 Big5+, Big5E,但是都未普及到業界,而且相關的資源也是無法公開取得的, 像是與 Unicode 的轉碼表,範例字型等,造成國內中文的用字無法推展。