美大學掀起搜尋技術研究熱

加州大學柏克萊分校正在創建一座跨學科的研究中心,用於研究進階搜尋技術,並開始與包括Google在內的搜尋巨頭洽談加入該計畫。

很多美國大學都有類似計畫,他們的目的是解決網際網路搜尋的爆炸性成長,以及該領域出現的其他複雜問題。

柏克萊分校曾培養出了搜尋方面的先驅Inktomi公司 ,而且Google的CEO Eric Schmidt也是在這裏獲得電腦科學博士學位。
據研究中心主任Robert Wilensky 介紹,現在他們已經集結了大約20名各學科的專家,共同研究搜尋技術。研究主要集中在下面幾個方面:個人隱私,欺詐行為,多媒體搜尋和個人化。

Wilensky是柏克萊的電腦科學和資訊管理系的教授,他說:「 我們要解決的問題正是搜尋取得成功之後所產生的。」

儘管研究中心的大樓還在規劃中,但是Wilensky說幾個月內就會完成建築設計,明年初中心就會開放。他還跟Google等搜尋公司談了合作事宜。

他說:「如果有20名對搜尋感興趣的研究人員,那麼讓他們一起工作,交流想法,取得的成就會遠大於每個人單獨成就之和。這就像引發核反應。」 Google拒絕對此發表評論。

搜尋廣告每年的業務額高達50億美元,引起了各方面對網路研究和開發的興趣。這項業務不光為Yahoo和Google這樣的巨頭每年帶來數十億美元的收入,還吸引了數以百計的網路新貴投身搜尋領域。

要尋找下一代技術?最好去大學裏看看,眼下最成功的搜尋公司就是從大學發跡的。

創投業者Geoff Yang表示:「大學是新思想的一個主要來源」。在史丹佛大學,有兩對研究生相隔六年,幾乎是在同一間宿舍裏,分別創建了Yahoo和Google。

Lycos 也曾是搜尋技術的領導者,它脫胎於卡內基梅隆大學(CMU)。該學校的Raul Valdes - Perez 教授還研究出了一種叢集搜尋工具--Vivisimo。

今天的搜尋問題跟五年前已是大不相同。現在網路上不光有書籍、論文,還有數位化的電視節目,這就要求搜尋技術比以前更加優秀。人們希望找到可以信賴的資訊,希望搜尋工具可以對更加複雜的問題進行搜尋。

CMU 的語言技術學會主席Jaime Carbonell 說,他的研究小組正在研究一種個人化搜尋技術,這將有助於解決一些隱私問題,比如大規模搜集姓名和查詢歷史等敏感資料。

CMU 的專案跟Yahoo及Google已經測試的軟體有相同的功能,不過後兩者利用各自的網路來搜集和儲存搜尋歷史,而CMU 開發了一種外掛程式,人們可以下載到PC中使用。用戶可以維護和修改個人化的資訊,比如查詢歷史、偏好和喜愛的網站等,並記錄到一個檔案中。

經過專門設計的搜尋引擎會查詢這個檔案,並結合用戶的檢索項目,對每次的搜尋結果做出取捨,這樣個人資訊就保留在用戶的電腦中,不會流失到網上。

Carbonell 透露,這種技術一年內就會問世,CMU 可能會把它作為開放原始碼軟體免費發行,也可能向公司授權使用。

CMU 還在進行一項由政府資助的長期專案,它的代號為「Javelin」 ,旨在研究問答式搜尋技術。對於詞語定義或者「洛杉磯的人口是多少」 之類的百科知識,Google、MSN 、Ask Jeeves等公司已經可以作出快捷的回答。

但是對於更複雜的查詢,比如「從舊金山到倫敦最便宜的航班是哪個?」或者「哪個大學的電腦科學系最大?」目前還很難搜尋到有效的答案。

Carbonell 說:「這是個動態的資訊,你必須分析問題,在多個地方找到答案,然後進行比較。這需要許多步驟。我們研究如何把它化為一步,並且把中間過程提交給用戶。」

他認為,要想達到政府以及網路用戶期望的功能和效率,可能還需要四五年的時間。

德州大學和賓州大學也在研究類似的問題。

史丹佛則繼續扮演著搜尋技術孵化基地的角色。自從2003年以來,Google已經從史丹佛購買了至少兩項研究成果--其中一個是個人化搜尋工具Kaltix,另一項成果則出自史丹佛電腦科學系的合作研究機構。

史丹佛的副教授Andrew Ng 致力於人工智慧技術的研究,他希望從檢索索引中提取出資訊。

還有一些人憑藉研究專案創辦了新公司。SearchFox 就是這樣的網路公司,它由史丹佛教授James Gibbons 和前任工程學院院長共同創建。這家私人持股的公司發明了一種聯合搜尋引擎,可以讓用戶分享喜歡的鏈結,創建個人化的搜尋索引。

史丹佛大學、麻省理工學院和其他的許多大學都在著手解決未來的圖書館面臨的問題--大規模的數位化。篩選和組織數以億計的數位化檔,需要新的搜尋技術支援。

麻省理工學院已經跟WWW協會合作開展一項代號為Simile的計畫,研究使用「語義」 網路的下一代搜尋技術。

一名參與該計畫的MIT 研究生開發了一款叫做Piggybank 的工具軟體,可以嵌入到Firefox 瀏覽器中。利用Piggybank ,人們在瀏覽網頁的時候可以用關鍵字進行標記,創建一個經過註解的本地收藏夾,並發表到一個叫做「銀行」的網站。

這樣,它就變成了一個「語義瀏覽器」,用戶可以更佳理解網頁上的資訊。

在一次示範中,Piggybank 整合了從電影網站Boston.com和Google Maps 獲得的資料,得出了飯店和電影院附近的咖啡店分佈圖。用戶還可以把這些資訊保存到一個資料庫檔案中(不僅僅是書簽),以後就可以根據它的屬性或者指定關鍵字進行搜尋。

麻省理工學院準備向師生們推廣這些先進的技術。

在柏克萊的研究中心,Wilensky開展了一項雄心勃勃的計畫--他要解決廣義的搜尋問題。這包括分析和組織各種形式的資訊(包括圖像、視訊和電子商務資訊),協助人們合成這些資訊並從中粹取情報。

一個主要的應用領域將是可信度和隱私。比如,你從Google上搜尋的內容由多大的可信度?如何判斷一名eBay賣家是否值得信賴?

Wilensky說他的團隊研究證明,eBay賣家的信用評價受報復性評價的影響,從而發生偏移。有不良記錄的用戶會換一個名字再次出現,變成沒有任何紀錄。

Wilensky說,因此他的團隊開發了一種叫做「EM trust」的演算法,它採用了一種評估線上賣家誠實度的統計模式。這項成果有可能用於網站。

柏克萊無線技術研究中心也準備開展相關研究,而且它還有大型的行動廠商作為後盾。它將吸納柏克萊電機系的教授Jitendra Malik,以及電腦科學系的教授David Forsyth ,這兩者都從事電腦視覺研究。(陳奭璁整理)

轉載自: 美大學掀起搜尋技術研究熱

CNET新聞專區:Stefanie Olsen  17/08/2005

作者: Tsung

對新奇的事物都很有興趣, 喜歡簡單的東西, 過簡單的生活.

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料