中文輸入

認識編碼

身為中國人﹐自然少不了要使用中文啦。不過電腦上最常使用的ASCII編碼﹐卻只適合於英文系統。如果要電腦能顯示中文(或其它國的文字)﹐那麼就要給電腦制度另一種編碼才行。

在前面講述怎麼計算資料容量的時候﹐我們已經知道電腦資料的最小單位是bit﹐但一個bit只有兩種變化(要麼是0要麼是1)﹐實在表達不出什麼意思。然後我將8個bit組成一個byte(字節)﹐那麼就有28=256種變化了﹐每個組合也就可以代表各自不同的意思了。

利用這個byte﹐ASCII碼早在1960被開發的時候﹐給制定了128組文字和符號﹔而後IBM又再擴充到256組。其中分為四大類﹕

ASCII編號 定義
0 至 31特殊的控制字元
32 至 127文數字資料
128 至 159其它歐洲的字元
160 至 256繪圖字元
然而﹐日常使用的中文文字也有2000多個﹐較完整的中文字庫也有一萬多字﹐256種變化肯定不夠。所以中文字要使用兩個byte(雙字節)來表示一個字﹐那麼就有216=65536種變化了。

這些變化歸根結底都是以0和1的組合﹐那麼我們用不同的組合就可以建立起不同的文字對應﹐這個資料就是字庫了。通過字庫找出來的字通常會以“點陣”的形式顯示出來﹐即每一筆每一劃都是用相連一起的點組成。要顯示中文最少要有16X15點的排列空間﹐當然解析度越高越好看啦。不過﹐如果將這些點陣字按既定比例放大的話﹐您會發現其邊邊都很難看﹐都是些鋸齒。所以漂亮的中文字都會使用“真實字體”(Ture Type Font)來表示﹐使用TTF的字體﹐無論如何放大或縮小﹐字形都會保持不變的﹐但所需要的儲存空間也當然比點陣字要大。

如果您想有更多的中文字形選擇﹐比如顏體、棣書、魏碑、等等﹐那麼您就必須為系統安裝字形才可以使用。

中文的內碼

中文字體除了在字形的不同﹐很多人都知道還有繁體和簡體之分吧﹐它們使用的內碼也各有一套。現在最流行的中文內碼有兩種﹕一種是中國大陸使用的GB碼﹐另一種是在台灣使用的BIG5碼。雖然GB多為簡體字所採用﹐而BIG5多為繁體字採用﹐但其實它們都有各自的繁體字和簡體字的。然而﹐無論是使用繁體還是簡體﹐只能使用有相同的內碼才會被正確的顯示出來﹐否則只會是一堆亂七八糟的文字組合。

有時候您接到海外朋友寄來的 email﹐打開一看全是亂碼﹐就很可能是編寫者使用了一種內碼﹐而閱讀者使用了另一內碼所至。尤其是那些外掛在英文系統上面的中文軟體﹐常會造成這樣那樣的內碼問題。不過﹐如果您有一套聰明的中文軟體﹐大都有自動選碼功能﹐這樣您就無需為內碼錯誤頭痛了。筆者所使用的南極星的NJStar Communicator(有試用版可以下載)就是個不錯的中文軟體﹐用來同時要看BG碼和BIG5碼的網頁就最為合適了。它還有一個好處是可以用來進行中文輸入呢。

輸入法

提到中文輸入就是個頭痛的問題﹐因為其輸入不像英文輸入那樣簡單。英文輸入只要看著鍵盤找到相應的按鍵就可以輸入了﹐但中文輸入卻非要再學習不可。而且輸入法則也琳琅滿目﹐各行一套。比較專業的中文輸入員都懂得諸如倉頡輸或五筆等輸入法﹐不過都要經過比較長時間的學習才容易掌握。一般會注音或拼音的朋友﹐則會選擇注音或拼音輸入法﹐因為其拼字規則在學校裡面已經學過了﹐不像倉頡等要重新學習過。現在還好像有什麼大易、無蝦米等輸入法﹐不一而足。

然而哪種輸入法比較適合自己也是因人而異啦﹐而且一旦學會了一種﹐除非是謀生所需﹐也比較難(懶)去改學別的輸入法。而且不同的輸入法在不同的場合裡面也有不同的優點﹐比如注音(拼音)輸入法比較適合邊想邊輸入﹐比較適合聊天或寫email等簡單用途。但是如果要邊看邊寫﹐比如抄寫﹐或需要大量的文字輸入﹐倉頡(五筆)輸入法則很明顯是最理解的﹐其錯字率也比較低。無論採用哪種輸入法﹐熟悉程度是影響輸入速度的非常重要因素。

現在有一種手寫板的玩意﹐對一些不會輸入法的使用者來說﹐確實提供了一個方便之門。然而如果您學會了任何一種鍵盤輸入法的話﹐您就會覺得手寫輸入其實是最慢的。

 

 


© 2000 Netman 網中人
Last Updated: March 28, 2000