2006年7月7日 星期五

動態組字的疑問

前天,與一位網友在Freenode 這個irc裏面的聊天室裡討論漢字構字式的動態組字,那時雙方其時立場不同、需求也不同,雞同鴨講,討論的品質越來越差,不可能有什麼建設性的結晶,所以我就即刻終止討論,今天盡可能有條理的blog這件事。

對方立場在於個人的私立場:目前的中文系統將就的用據「統計」常用的5000字就夠了,不斷出生的新事物可以完全用這5000字以組詞的方式構成,我的立場是在公立場:整體資訊工業為了滿足不同的領域,尤其是既有的中文系統解決方案,並未良好的表述傳統上我們本來就在用的所有漢字!到處都在用很原始的方法造字(簡單說就是畫圖),結果常常浪費時間在作重複的事情,而且既有的這種「畫字型」技術,都是極大的資源耗用,在在都是讓中文處理像拖油瓶一樣成為作業系統的極大負擔,任何資訊系統要加上越完善的中文化,都是越大的成本,光是記憶體耗用,英文基本字型,字母來說不過就 26個字母,以14*14字型、一個點1bit的點陣字粗估好了,只要637 bytes的記憶體空間就夠了,當然現代的電腦主機板上的ROM一定會內建一個這樣的基本字型。那中文了?我不相信所謂的5000字就夠用,那是個人主觀,以資訊技術供應的角度來看,我不能強迫所有人只能用5000字的字集(除費較大家放棄正體字,改用簡體字),我還是以差強人意但勉搶至少可接受的big5:15000多字來計算:15000*14*14/8/1024=358KB,已經要這麼大了,如果是unicode加向量字,一套字型一兩mb是稀鬆平常的事,而還有很多行業領域仍是在叫喊缺字,對很多電腦系統來說處理中文缺字永遠是莫大的成本,以前都是外國軟體工程師最不想碰的燙手山芋,既有的以英文處理字母的方式來處理中文字的技術,永遠不能解決對傳統(沒有電腦之前)用字的需求。


所以才會有構字式漢字動態組字技術誕生,英文字是由英文字母以一維組字,表音再對義,而成,中文是由中文基本字母(本身即有意義的869個聲母及265個形母,中研院古文字研究的成果)以二維組字的方式組成,先表意再對音(所以不同差異極大的語言的語族,古代仍可以書同文),漢字在長遠的歷史上不若我們以為的是固定住的,而是隨著時代需要,當一新事物用組詞的方式越來越沒有效率且使用頻率過高時,就會以基本字母組出新字,以順應時代需要。動態組字就是在電腦上重新實作這個機制,記憶體內就像英文只存基本中文字母(),所有的字,都是在用時,用二維組字即時生成。

也許有人會說沒需要,只有古書才有用,但想看看,「orz」、「 」這些年輕人(嗚我是老人了嗎?)火星文取形的表現,不就是漢字原本的生命力表現嗎?之前電視節目:全民大悶鍋裏面,呂秀廉的單元都會發明了一些新字,例如說描述男性的姿態的新字:「次-男」(我用減號,表示上下合體),發音:ㄘ~ㄋㄢ(要唸很快)、四聲,可見都是有造字的需要,無非是更有效率的傳達訊息,把複雜的事務,在一個字的單元內,會義、簡要的表達出來,如果資訊技術能擺脫拿傳統處理歐文「字母」的方式來處理中文「字」沒有效率、成本高張的作法,回歸重現漢字原有生命力,這會是莫大的文化功業。

以前我也曾經是自私的人,也是認為幾千個常用字夠用就好了的那種,但我想以要作軟體的立場,特別是自由軟體的立場,本來就要有一個革命情感,不能太自私(不然幹嘛作自由軟體?),要改革既有不美善的現況,不能很自私的將就於現況,適逢目前持有前易符公司構字式動態組字專利的剎那搜尋工坊即將其專利程式碼(順便小題,英文字母也可組到中文字裏面)釋出成LGPL原始碼,這是很好的機會點,自私的一點想,參考維基百科漢字動態組字條目,日、美、中各有人馬在作這下一代的中文編碼基礎,自詡為中華古典文化保存最完整的台灣,我們已經知道自己國家的優勢漸漸不多了,如果連文化解釋權都拱手讓人,那不曉得台灣還會有什麼特有價值。/_\(左邊這個表情符號將來應該也可以組字~_~)

有興趣的朋友,可以加入:google的正體中文討論區進行討論。

沒有留言:

count