內觀於心,心無其心;外觀於形,形無其形。

漢字編碼字符集、字體

1. GB-2312字符集:收入漢字6763箇,符號715箇,總計7478箇字符,這是大陸普遍使用的簡體字符集(包括了沒有簡體與繁體之分的傳統傳承漢字,如金木水火土人民在大小等等,有4000多箇。真正由傳統傳承漢字簡化而來的簡體漢字約2235箇)。楷體-gb2312、仿宋-gb2312、華文行楷等市面上絕大多數字體支持顯示這箇字符集,亦是大多數輸入法(如智能ABC)所採用的字符集。大陸市面上絕大多數所謂的繁體字體,其實采用的是GB-2312字符集簡體字的編碼,用字體顯示爲繁體字,而不是直接用GBK字符集中繁體字的編碼,錯誤百出。

2. BIG-5字符集:收入13060箇漢字(傳統傳承漢字,包括相對於簡化漢字而言的繁體字),808箇符號,總計13868箇字符,目前普遍使用於臺灣、香港等地區。臺灣教育部標準宋體楷體等港臺字體都支持這箇字符集的顯示。

3. GBK字符集:,又稱大字符集(GB=GuóBiāo國標,K=擴展),包含以上兩種字符集漢字,收入21003箇漢字,882箇符號,共計21885箇字符,包括了中日韓(CJK)統一漢字20925箇、擴展A集(CJKExt-A)中的漢字52箇。Windows95\98簡體中文版就帶有這箇GBK.txt(r)文件。宋體、隸書、黑體、幼圓、華文中宋、華文細黑、華文楷體、標楷體(DFKai-SB)、Arial Unicode MS、MingLiU、PMingLiU等字體支持顯示這箇字符集。微軟拼音輸入法2003、全拼、紫光拼音、極點中文、龍鳳五筆等輸入法,能夠錄入如鎔炁夬喆嚞姤贇龑昳堃慜等GBK簡繁體漢字。

4. GB18030字符集:包含GBK字符集、CJKExt-A全部6582箇漢字,共計27533箇漢字。宋體-18030、方正楷體(FZKai-Z03)、書同文楷體(MSSong)、宋體(ht_cjk+)、香港華康標準宋體(DFSongStd)、華康香港標準楷體、CERG Chinese Font、韓國NewGulim、NewBatang,以及微軟Windows Vista操作系統提供的宋黑楷仿宋等字體亦支持這箇字符集的顯示。Windows98支持這箇字符集,以下的字符集則不支持。

5. ISO/IEC10646/Unicode字符集:這是全球可以共用的編碼字符集,兩者相互兼融,涵蓋了世界上主要語文的字符,其中包括簡繁體漢字,計有:CJK統一漢字20925箇,CJK Ext-A 6582箇,Ext-B 42711箇,共計70244箇漢字。方正楷體超大字符集(簡體版FZKaiS-Extended(SIP)或繁體版FZKaiT-Extended(SIP))、SimSun-ExtB(宋體)、MingLiU-ExtB(細明體)能顯示全部Ext-B漢字。至今尚無單獨一款字體能夠顯示全部70244箇漢字,但可用手寫輸入法逍遥笔、海峰五筆、新概念五筆、倉頡輸入法世紀版,以及東里五笔98全字版(r)等輸入法錄入。

6. 亂碼的問題:BIG-5(大五碼,繁體中文)與GB-2312(國標碼,簡體中文),是兩種完全不同的編碼系統,互不兼容,相同的字符在不同編碼的操作系統中便產生亂碼。凡亂碼文本文檔,可用BabelPad解決:啟動BabelPad,打開亂碼txt文檔,在encoding處選擇您認爲可能的編碼(或不需要這個步驟),正常閱讀,然後另存爲Unicode編碼的文本,或UTF-8編碼的文本。爲避免亂碼問題的發生,在保存文件時,尤其是TXT文本,建議把編碼更改爲UTF-8或Unicode,而不是默認的ANSI。文本文字簡繁體編碼間的轉換,可以用BabelPad、cnbook、TextPro之類的轉碼軟件來解決。在網頁中,可點擊右鍵→編碼→繁體中文或簡體中文以解決。若是程序,WindowsXP操作系統,可用Microsoft AppLocale Utility解決。各種字體雖分大五碼(繁體)或國標碼(簡體),但並不妨礙在簡體或繁體操作系統中安裝與顯示。

7. 辦公軟件安裝建議:在安裝Microsoft Office等辦公軟件的過程中,如果“典型安裝”,就會有很多遺漏,如字體不全,功能不全。建議:完全安裝(或自定義安裝),但可選擇相關的程序,如只安裝其中常用的幾個組件。

(r): rar 壓縮檔