開原碼軟體對中文處理推動之助益

中文使用者遇到電腦時，就一定會碰觸到中文資訊處理的問題。

中文資訊處理包含中文的顯示（包含中文字型、中文列印等）、中文輸入、中文語言資料的處理、中文應用軟體、中文內碼（包含character code、codepage等）、中文字的組構及表示方式。因此舉凡瀏覽中文網頁、透過鍵盤輸入中文字、看中文網站、中文斷字、翻譯、看中文文件、選用不同的中文字體來列印文件等等日常生活的行為，都是中文資訊處理的行為。

中文是全球華人的共同資產，為了迎接電腦網路所帶來的挑戰與機會，中文資訊力的普及與提昇，此刻便顯得日益重要。新的技術和需求衍生出新的中文資訊處理問題（例如高解析度輸出設備需要高點數的中文字型配合，才能有令人滿意的輸出結果）、新的作業系統（例如GNU Linux的興起）與新的思考方式（開原碼的作業及思考模式），也帶來了新的挑戰與新的可能性。

中文處理問題

漢字是一個開放性質的字集，依古今的變異、專業與應用環境的差異，漢字有了字數、字形、字音、以及字義上的變化，這成為中文資訊處理的一項挑戰。在現行電腦系統下，現行漢字交換碼的結構，卻仿照西方語文的字母集結構來設計，自然容易產生許多困擾。單純就字數而言，中文字並不適合作固定數量的限定，這點與數量固定的西方語文「字母集」相較不可以一概而論，因此即產生許多缺字問題。

為解決這個問題，早期，中央研究院進行古籍數位化工作，累積了近萬個中文缺字。資訊科學研究所徹底分析了古籍、漢語字典、各國字集標準等資料，並將研究成果開放給大眾。其中，開放原始碼（簡稱開原碼）在其中扮演開放的載具角色。

開原碼為中文資訊處理帶來新的開發模式

開放原始碼軟體（OSS; Open Source Software）不只是原始碼的公開，更是一套思考問題的流程。當前世界很多的OSS成功案例，都說明了開原碼開發模式不只成就了某幾套軟體，更組織了來自世界各地、不同背景及不同才能的社群。OSS的專案強調協力合作、資源的共享與公開、對問題的迅速回應與修正。

開原碼的特性對於中文資訊處理領域，也有所幫助。中文資訊處理的問題，以往通常得仰賴少數集中的資訊廠商（例如特定的軟體供應商、作業系統生產者等等）來解決，這些廠商如果只採用專屬（proprietary）開發模式，一旦環境改變、軟硬體版本更新、廠商易手或失去市場動機，中文資訊處理的問題往往又回到了原點。開原碼在這一個面向上，提供了新的機會及加值模式。

另一方面，許多關於中文內碼（或者是國際標準碼中的中文碼段）、中文顯示及輸入、軟體的中文化（本地化，localization）等議題，都是以GNU Linux或其他開原碼平台上做為討論的基礎。當然，GNU Linux並不是開原碼的全部，但不可否認的是，推行以Linux（或其他開原碼的作業系統平台）為基礎的中文應用環境，確實是當前解決中文資訊處理問題的重要方向。

中央研究院資訊科學研究所自由軟體鑄造場 (OSSF)所開發的 OpenFoundry系統，是一套功能完整的軟體開發平台，可以幫助開發者管理專案，包括專案的發佈、檔案的倉儲、版本的管理、建立及文件內容的維護、 mailing list、臭蟲及軟體修訂回報系統等等。鑄造場同時也是一種開放空間，讓專案跟專案之間可以在公共空間裡進駐，一群人可以知道另一群人在做什麼，甚至專案與專案之間還可以進行交流討論，（在開原碼的社會法律框架下）引用彼此的成果、程式碼及資料。為了提供本土使用者更友善的操作介面， OpenFoundry系統也是諸多軟體鑄造場中，中文化最成功的。

成果

目前，開放原始碼軟體，已應用於中研院資訊所的多項計畫上，包括漢字構形資料庫系統、資訊的檢索、文件分析、中文辨識系統、中文輸入法等等。

現在我們已能有效地自動分析網路上產生的大量中文資訊，也針對中文系統缺字問題，提出根本的解決方法。透過自由軟體鑄造場的彙整，資訊科學研究所得以提供大眾或研究組織形、義、音，三種面向的服務，因應缺字問題，以及建立完整的中文知識網的需要。

為了支援構字式的表達呈現，目前已整理出四萬餘字的兩套字型，公開讓各界使用。隨系統附有楷體、明體、小篆、金文、甲骨文、楚系文字等字型，使用者可由 OpenFoundry網站「中文應用」的網址（註一）下載楷體、明體兩套 True Type Font，或安裝整套漢字構形資料庫系統以取得所有字型檔案。還可以利用系統裡的異體字資料庫，來提高中文資料檢索的精確度。

此外，本所目前也正在推動構字式的基礎項目納入標準，並針對主計處的全字庫字型，進行構字式的分析，在搭配簡易操作的輸入法環境及造字系統之後，可有效協助構字式及全字庫的推廣使用。

另一方面，將網路上不斷成長的資料轉化成有用的資訊與知識，也是中文資訊處理的重要課題。這部份屬於中文字義的應用領域，包括資訊的檢索、語意的查詢、知識的抽取等。由簡立峰研究員帶領的網路知識擷取實驗室，所開發的 PAT-tree 中文抽詞程式，就是一套建立中文語詞庫的基礎工具程式，目前以 GPL 授權條款釋出。另外，由陳克健帶領的中文詞知識庫小組，長期維護中文詞彙庫及語料庫等的中文處理基礎建設。透過上述成果的整合，可以協助中文語文專家及搜尋引擎系統開發者，有效建立字辭庫的內容。

在中文辨識系統方面，由張復帶領的文件分析與辨識實驗室，已完成一套架構在 GNU Linux 作業系統上的軟體，可以進行中文文件的辨識及管理。王新民則完成了中文語音辨識及語音資訊檢索系統，如何提昇語音辨識率及檢索效能，則是進一步研發的方向。

在注音自動轉國字的軟體方面，包括有許聞廉及其團隊開發的「自然輸入法」，以及徐讚昇指導龔律全、陳康本所設計的「酷音輸入法」。自然輸入法軟體提供下載試用至今，總下載次數已接近八十三萬人次。「酷音輸入法」則是成為Open Source社群開發智慧型輸入法的重要基礎。

而中研院也把這些研究成果以開放原始碼模式釋出。（註二）

台灣是全球正體中文的發展中心，所擔負的使命與責任也特別大。透過開放原始碼的協助，中央研究院得以將既有的研發成果與全民共享，以便發揮更大的影響力。(完)

註釋註一 Open Foundry: OSSF is Seeking Software Freedom

註二　這些系統有些子項已經釋出或是說有些子項尚未釋出，為避免錯誤認知，建議有興趣者可以上述網址，有釋出的相關中文資訊處理軟體，都可以在上面搜尋到。

作者為中央研究院資訊科學研究所專案經理，負責自由軟體鑄造場專案。

胡崇偉　　2005/09/09