開原碼軟體對中文處理推動之助益

中文使用者遇到電腦時,就一定會碰觸到中文資訊處理的問題。

中文資訊處理包含中文的顯示(包含中文字型、中文列印等)、中文輸入、中文語言資料的處理、中文應用軟體、中文內碼(包含character code、codepage等)、中文字的組構及表示方式。因此舉凡瀏覽中文網頁、透過鍵盤輸入中文字、看中文網站、中文斷字、翻譯、看中文文件、選用不同的中文字體來列印文件等等日常生活的行為,都是中文資訊處理的行為。

中文是全球華人的共同資產,為了迎接電腦網路所帶來的挑戰與機會,中文資訊力的普及與提昇,此刻便顯得日益重要。新的技術和需求衍生出新的中文資訊處理問題(例如高解析度輸出設備需要高點數的中文字型配合,才能有令人滿意的輸出結果)、新的作業系統(例如GNU Linux的興起)與新的思考方式(開原碼的作業及思考模式),也帶來了新的挑戰與新的可能性。

中文處理問題

漢字是一個開放性質的字集,依古今的變異、專業與應用環境的差異,漢字有了字數、字形、字音、以及字義上的變化,這成為中文資訊處理的一項挑戰。在現行電腦系統下,現行漢字交換碼的結構,卻仿照西方語文的字母集結構來設計,自然容易產生許多困擾。單純就字數而言,中文字並不適合作固定數量的限定,這點與數量固定的西方語文「字母集」相較不可以一概而論,因此即產生許多缺字問題。

為解決這個問題,早期,中央研究院進行古籍數位化工作,累積了近萬個中文缺字。資訊科學研究所徹底分析了古籍、漢語字典、各國字集標準等資料,並將研究成果開放給大眾。其中,開放原始碼(簡稱開原碼)在其中扮演開放的載具角色。

開原碼為中文資訊處理帶來新的開發模式

開放原始碼軟體(OSS; Open Source Software)不只是原始碼的公開,更是一套思考問題的流程。當前世界很多的OSS成功案例,都說明了開原碼開發模式不只成就了某幾套軟體,更組織了來自世界各地、不同背景及不同才能的社群。OSS的專案強調協力合作、資源的共享與公開、對問題的迅速回應與修正。

開原碼的特性對於中文資訊處理領域,也有所幫助。中文資訊處理的問題,以往通常得仰賴少數集中的資訊廠商(例如特定的軟體供應商、作業系統生產者等等)來解決,這些廠商如果只採用專屬(proprietary)開發模式,一旦環境改變、軟硬體版本更新、廠商易手或失去市場動機,中文資訊處理的問題往往又回到了原點。開原碼在這一個面向上,提供了新的機會及加值模式。

另一方面,許多關於中文內碼(或者是國際標準碼中的中文碼段)、中文顯示及輸入、軟體的中文化(本地化,localization)等議題,都是以GNU Linux或其他開原碼平台上做為討論的基礎。當然,GNU Linux並不是開原碼的全部,但不可否認的是,推行以Linux(或其他開原碼的作業系統平台)為基礎的中文應用環境,確實是當前解決中文資訊處理問題的重要方向。

中央研究院資訊科學研究所自由軟體鑄造場 (OSSF)所開發的 OpenFoundry系統,是一套功能完整的軟體開發平台,可以幫助開發者管理專案,包括專案的發佈、檔案的倉儲、版本的管理、建立及文件內容的維護、 mailing list、臭蟲及軟體修訂回報系統等等。鑄造場同時也是一種開放空間,讓專案跟專案之間可以在公共空間裡進駐,一群人可以知道另一群人在做什麼,甚至專案與專案之間還可以進行交流討論,(在開原碼的社會法律框架下)引用彼此的成果、程式碼及資料。為了提供本土使用者更友善的操作介面, OpenFoundry系統也是諸多軟體鑄造場中,中文化最成功的。

成果

目前,開放原始碼軟體,已應用於中研院資訊所的多項計畫上,包括漢字構形資料庫系統、資訊的檢索、文件分析、中文辨識系統、中文輸入法等等。

現在我們已能有效地自動分析網路上產生的大量中文資訊,也針對中文系統缺字問題,提出根本的解決方法。透過自由軟體鑄造場的彙整,資訊科學研究所得以提供大眾或研究組織形、義、音,三種面向的服務,因應缺字問題,以及建立完整的中文知識網的需要。

為了支援構字式的表達呈現,目前已整理出四萬餘字的兩套字型,公開讓各界使用。隨系統附有楷體、明體、小篆、金文、甲骨文、楚系文字等字型,使用者可由 OpenFoundry網站「中文應用」的網址 (註一)下載楷體、明體兩套 True Type Font,或安裝整套漢字構形資料庫系統以取得所有字型檔案。還可以利用系統裡的異體字資料庫,來提高中文資料檢索的精確度。

此外,本所目前也正在推動構字式的基礎項目納入標準,並針對主計處的全字庫字型,進行構字式的分析,在搭配簡易操作的輸入法環境及造字系統之後,可有效協助構字式及全字庫的推廣使用。

另一方面,將網路上不斷成長的資料轉化成有用的資訊與知識,也是中文資訊處理的重要課題。這部份屬於中文字義的應用領域,包括資訊的檢索、語意的查詢、知識的抽取等。由簡立峰研究員帶領的網路知識擷取實驗室,所開發的 PAT-tree 中文抽詞程式,就是一套建立中文語詞庫的基礎工具程式,目前以 GPL 授權條款釋出。另外,由陳克健帶領的中文詞知識庫小組,長期維護中文詞彙庫及語料庫等的中文處理基礎建設。透過上述成果的整合,可以協助中文語文專家及搜尋引擎系統開發者,有效建立字辭庫的內容。

在中文辨識系統方面,由張復帶領的文件分析與辨識實驗室,已完成一套架構在 GNU Linux 作業系統上的軟體,可以進行中文文件的辨識及管理。王新民則完成了中文語音辨識及語音資訊檢索系統,如何提昇語音辨識率及檢索效能,則是進一步研發的方向。

在注音自動轉國字的軟體方面,包括有許聞廉及其團隊開發的「自然輸入法」,以及徐讚昇指導龔律全、陳康本所設計的「酷音輸入法」。自然輸入法軟體提供下載試用至今,總下載次數已接近八十三萬人次。「酷音輸入法」則是成為Open Source社群開發智慧型輸入法的重要基礎。

而中研院也把這些研究成果以開放原始碼模式釋出。(註二)

台灣是全球正體中文的發展中心,所擔負的使命與責任也特別大。透過開放原始碼的協助,中央研究院得以將既有的研發成果與全民共享,以便發揮更大的影響力。(完)

註釋 註一 Open Foundry: OSSF is Seeking Software Freedom

註二 這些系統有些子項已經釋出或是說有些子項尚未釋出,為避免錯誤認知,建議有興趣者可以上述網址,有釋出的相關中文資訊處理軟體,都可以在上面搜尋到。

作者為中央研究院資訊科學研究所專案經理,負責自由軟體鑄造場專案。

胡崇偉  2005/09/09


關於 Tsung

對新奇的事物都很有興趣, 喜歡簡單的東西, 過簡單的生活.
本篇發表於 News。將永久鏈結加入書籤。

發表迴響