筆順碼與其他輸入法單字平均碼長比較

王頌平

 

為了確認筆順碼編碼方案的科學性和合理性, 特別是需要確認, 是否因為使用了複筆和編碼規則而產生了預期的碼長縮短、重碼率降低的效果,本公司對已經在廈華手機上實施的筆順碼輸入法進行了測試。測試結果如下:在提示行為一行6 字不翻屏的情況下,單字平均碼長為3.78。顯然,這個結果要比同類輸入法好得多。因為摩托羅拉輸入法在提示行為二行10字的情況下,單字平均碼長為6.55;而字原輸入法在提示行為一行7字的情況下,單字平均碼長為7.1。請看下圖:

筆順碼與其它輸入法單字平均碼長比較

輸入法名稱
手機用家
單字平均碼長
屏幕顯示
操 作
筆順碼輸入法
廈華
3.78
一行6 字
不翻屏
摩托羅拉輸入法
摩托羅拉
6.55
二行10字
翻屏
字原輸入法
愛立信
7.1
一行7字
翻屏

 

需要說明一點,由於摩托羅拉輸入法和字原輸入法沒有了較多的容錯碼,致使上表統計數據會有千分之幾的誤差,但是它不會使上述數據有根本性的改變,只能說明該輸入法在編碼方案的嚴謹性方面存在一定的問題。
人們可能會問,被國外手機用家較多採用T9輸入法又會怎麼樣呢?以下的表一至表五會清楚地回答這個問題。從理論上說,T9的單字平均碼長應該比字原輸入法還長。道理很簡單,因為它用的數字鍵是最少的,只有5個。可以這樣說,在分佈均衡的情況下,用的鍵越多碼長應該越短。筆順碼用10個鍵,摩托羅拉用9個鍵,T9用5個鍵。所以,T9的碼長應該是最長的。
表一至表五還說明了一個問題,那就是用鍵的合理性問題。以摩托羅拉為例它用了9個鍵,但是它的碼長並沒有相應地縮短,原因是它用數字6來表示"捺",而漢字中根本就沒有"捺"起筆的字,這個鍵形同虛設。類似的問題在字原輸入法中也存在,比如它用數字7表示豎彎?,用數字9表示豎提,但是在漢中以豎彎?、豎提起筆的字寥寥無幾,這種做法只能徒然增加用尸記憶的負擔。
統計結果表明:摩托羅拉增設的3個鍵,對於GB-2312,即國標6763字來說,它所承擔的字只占0.74%;字原增設的2個鍵,對於國標6763字來說,承擔的字更少,只占0.1%;而筆順碼就完全不同了,它增設的4個鍵承擔了3067個字的編碼,在國標6763中占45.3%。再加上編碼規則的合理,這就使得它能有效地控制碼長,降低重碼。有意思的是相對於摩托羅拉、字原和T9,筆順碼在碼長和重碼率這兩個重要性能方面的提高幅度幾乎也是45%左右。

總之,筆順碼是一種淵源于中國本土的中文輸入法,它符合中國人的書寫習慣和思維方式,也可以說是至今為止綜合性能最佳的輸入方法,這是它在群雄中能脫穎而出,被手機用家以至被軍方選中的原因。

 

表一

筆順碼、摩托羅拉、字原和T9四種中文輸入法
數字--筆劃對應表

 

 
1
2
3
4
5
6
7
8
9
0
*
用鍵數
筆順碼

用10鍵
摩托羅拉
用9鍵
字 原
用8鍵
T 9

用5鍵

 

表一是筆順碼、摩托羅拉、字原和T9這四種方法所採取的數字代碼與漢字筆劃的對應表。

 

筆順碼、摩托羅拉、字原和T9四種中文輸入法
相關數字下漢字字數統計表

 
1
2
3
4
5
6
7
8
9
0
*
筆順碼
669
302
959

1125

337
304
399
880
1018
770
摩托羅拉
303
1505
295
1554
1086
0
8
1970
42
/
字 原
1554
1970
1505
305
1086
336
0
/
7
T 9
/
/
/
/
/
/
1970
1086
1564
648
1505

表二是筆順碼、摩托羅拉、字原和T9這四種不同輸入方法在每一個數字下所包含的漢字字數統計表。表二可以反映一個輸入法碼表的優劣,因為我們很容易明白這樣一個道理,那就是:當第一欄某一個數字下的漢字字數太多,而在另一的數字下漢字的字數太少,或者甚至沒有,那麼它將導致該輸入法的碼長長而重碼率高。從表二可以看到筆順碼的數字與漢字我對應關係是這四種方法中最為均衡的,所以理論上它的碼長應該最短、重碼率應該最短,而事實上也是如此。

 

表三
筆順碼、摩托羅拉、字原和T9四種中文輸入法
與13081國家標準比較表

 
單 筆 劃
筆劃組合和筆劃變形
  是否符合標準
國家標準
1
2
3
4
5
6
7
8
9
0
*
 

             
筆順碼

符合標準
摩托羅拉
不符合標準
字 原
不符合標準
T 9

不符合標準


從表三可以看出,筆順碼、摩托羅拉、字原和T9它們賦予漢字筆劃的數字們代碼-是不符合中國國家質技術監督局最新制訂的18031標準的。摩托羅拉用數字8來表示橫、用5表示豎、用4表示撇、用6表示捺;字原用數字2來表示橫、用5表示豎、用1表示撇、用3表示點;T9用數字7來表示橫提、用8表示豎、用9表示撇、用*表示點捺;而只有筆順碼和這個最新的國家標准是最吻合的。
從表三可以體會到,中國政府統一漢字筆劃的數字代碼標準是勢在必行的,因為隨意使用數字代碼的結果將給中國人的輸入方法造成混亂。同時我們也能非常清楚地看到,一旦向標準靠攏,摩托羅拉、字原和T9這三種中文輸入法就毫無自己的特點可言了。

 

表四
筆順碼、摩托羅拉、字原和T9四種中文輸入法
筆劃分佈合理性比較

國家標準
單 筆 劃
筆劃組合和筆劃變形
1
2
3
4
5
6
7
8
9
0

         
筆順碼

669

302

959

1125

...

337

...

304

399

880

1018

770

摩托羅拉

1970

1086

1554

1505

...

295

...

303

0

8

42

 
字 原

1970

1086

1554

1505

...

336

...

305

0

7

 
T 9

1970

1086

1554

1505

...

648

         


表四說明,當我們不用數字代碼而直接用漢字筆劃來分析摩托羅拉、字原和T9這三種輸入法,就會發現這三種方法其實沒有什麼差別。它們的主要"差別"謹在於不同的數字去定義相同的東西。從表四不難看出,摩托羅拉與字原輸入法的所謂"差別"很少;而T9和它們的差別也微乎其微。
表四還說明了一點,那就是無論是摩托羅拉、字原還是T9,都並沒有真正把7、8、9、0四個數字利用起來,這些寶貴的資源被浪費了;而筆順碼則不同,7、8、9、0所對應的字占總字數的45%,這就為碼長的縮短、重碼率的降低提供了前提條件。以理論上推斷,筆順碼的碼長和重碼率應該比那些輸入法降低45%,事實恰恰也正是這樣。
統計結果表明:採用筆順碼的?華XG168手機,它的提示行一屏為6字,但是平均碼長謹為3.78;而採用字原輸入法的愛立信手機,提示行為7字( 比?華手機多1個字),但平均碼長超過了7;摩托羅拉手機採用的輸入法,盡管用了相排提示,一屏為10字(比比?華手機多4個字),但它的平均碼長也超過了6。
導至這個結果的第一個原因如上所述,這些輸入法使7、8、9、0形同虛設。第二個原因是,摩托羅拉、字原和T9在編碼規則上都沒有認真地推敲,以為一筆一筆輸入是最簡單的,其實不然。筆順碼跳出這個框框,當輸完前三碼以後不再繼續,倒過來取碼,這樣就有效地控制了碼長,即使為27,000個漢字編碼,也可以將碼長控制在6以下,而摩托羅拉、字原和T9是跟本無法做到的。
我們將用彩色圖示來表示上表的統計結果。

 

表五
筆順碼、摩托羅拉、字原和T9四種中文輸入法
字數分佈百分比比較

 

國家標準
單 筆 劃
筆劃組合和筆劃變形
1
2
3
4
5
6
7
8
9
0

         
筆順碼

9.9

4.5

14.2

16.6

...

5.0

...

4.5

5.9

13

15

11.4

摩托羅拉

29.1

16.1

23

22.2

...

4.36

...

4.5

0

0.12

0.62

 
字 原

29.1

16.1

23

22.2

...

5

...

4.5

0

0.1

 
T 9

29.1

16.1

23

22.2

...

9.6

         

 

表二統計了筆順碼、摩托羅拉、字原和T9這四種方法在每一個數字下面所包含的漢字的個數,而表五則在此基楚上統計了這些字分別在國標6763字中所占的百分比。
我們很容易想到,一個好的輸入方法不應該當讓百分比相差過於懸殊。統計結果表明,摩托羅拉、字原和T9這四種方法,其對應筆劃下的漢字數目在國標6763字中所占的比例,最高達到了29.1%,而筆劃碼最高的是15%。

 

 

本文章乃《筆順碼中文輸入法》發明人王頌平教授本人之學術研究,著作版權為王頌平本人擁有,未經她本人同意,切勿抄錄。請尊重版權。本公司只負責刊登此文於本公司網站內,原文照登。對本文可能會引起糾紛,爭拗,本公司概不負責,特此聲明。

 


| 主 頁 | 最新消息 | 新聞資訊 | 聯絡站 |

| 產品介紹 | 取碼入門 | 模擬示範 | 應用項目 | 練習平台 | 軟件下載 | 客戶典範 | 討論區 |