Google & Baidu

來自 Google 和 Baidu 官方網站,公司簡介和搜索引擎技術簡介。(中文版)


以下轉載自: Google & Baidu


Quoted from Google.Com:
Google 的使命是整合全球範圍的資訊,使人人皆可訪問並從中受益。
完成該使命的第一步就是 Google 的創始人 Larry Page 和 Sergey Brin 共同開發的全新的線上搜索引擎。該技術誕生於斯坦福大學的一個學生宿舍裏,然後迅速傳播到全球的資訊搜索者。 Google 目前被公認為全球最大的搜索引擎,它提供了簡單易用的免費服務,用戶可以在瞬間返回相關的搜索結果。
在訪問 Google 主頁時,您可以使用多種語言查找資訊、查看新聞標題、搜索超過 88,000 萬幅的圖片,並能夠細讀全球最大的 Usenet 消息存檔,其中提供的帖子超過 84,500 萬個,時間可以追溯到 1981 年。
用戶不必特意訪問 Google 主頁,也可以訪問所有這些資訊。使用 Google 工具欄可以從網上任何一個位置進行 Google 搜索。即使身邊沒有 PC 機,您也可以通過 WAP 和 i-mode 手機等無線平臺使用 Google。
Google 的實用性及便利性贏得了眾多用戶的青睞,它幾乎完全是在用戶的交口稱頌下成為全球最知名的品牌之一。作為一個企業,Google 通過提供廣告服務來獲取收入,使廣告客戶能夠刊登與特定網頁內容相關的、重要而又經濟實效的線上廣告。這不僅為您提供了實用的廣告資訊,同時也給刊登廣告的廣告客戶帶來了好處。我們認為,您有權知道在您面前展示的消息是否為付費的,因此我們始終將搜索結果或網頁上的其他內容與廣告區分開來。我們不出售搜索結果中的排名,也不允許有人付費來獲取搜索結果中的較高排名。
成千上萬的廣告客戶加入了我們的 Google AdWords 計畫,利用針對性強的廣告在網上推廣自己的產品和服務,同時我們相信 AdWords 是同類服務中規模最大的一個。此外,成千上萬的網站管理人員利用我們的 Google AdSense 計畫,刊登與其網站內容相關的廣告,以增加收入和改善用戶的體驗。


Quoted from Baidu.Com:
百度(Baidu.com,Inc)于1999年底成立於美國矽谷,它的創建者是資深資訊檢索技術專家、超鏈分析專利的唯一持有人――百度總裁李彥宏,及其好友――在矽谷有多年商界成功經驗的百度執行副總裁徐勇博士。
  百度是目前全球最優秀的中文資訊檢索與傳遞技術供應商。中國所有提供搜索引擎的門戶網站中,超過80%以上都由百度提供搜索引擎技術支援,現有客戶包括新浪、騰訊、263、21cn、上海熱線、廣州視窗、新華網、北方時空、西部時空、重慶熱線、吉林資訊港、大慶資訊港、東方熱線、湖南資訊港、南陽資訊港、順德資訊網。
  百度搜索引擎由四部分組成:蜘蛛程式、監控程序、索引資料庫、檢索程式。
  門戶網站只需將用戶查詢內容和一些相關參數傳遞到百度搜索引擎伺服器上,後臺程式就會自動工作並將最終結果返回給網站。
  百度搜索引擎使用了高性能的“網路蜘蛛”程式自動的在互聯網中搜索資訊,可定制、高擴展性的調度演算法使得搜索器能在極短的時間內收集到最大數量的互聯網資訊。百度在中國各地和美國均設有伺服器,搜索範圍涵蓋了中國大陸、香港、臺灣、澳門、新加坡等華語地區以及北美、歐洲的部分站點。百度搜索引擎擁有目前世界上最大的中文資訊庫,總量超過4億頁以上,並且還在以每天幾十萬頁的速度快速增長。


Quoted from Google 技術:
Google 秉持著開發“完美的搜索引擎”的信念,在業界獨樹一幟。所謂完美的搜索引擎,就如公司創始人之一 Larry Page 所定義的那樣,可以“確解用戶之意,切返用戶之需”。為了實現這一目標,Google 堅持不懈地追求創新,而不受現有模型的限制。因此,Google 開發了自己的服務基礎結構和具有突破性的 PageRank™ 技術,使得搜索方式發生了根本性變化。
Google 的開發人員從一開始就意識到:要以最快的速度提供最精確的搜索結果,則需要一種全新的伺服器設置。大多數的搜索引擎依靠少量大型伺服器,這樣,在訪問高峰期速度就會減慢,而 Google 卻利用相互鏈結的 PC 來快速查找每個搜索的答案。 這一創新技術成功地縮短了回應時間,提高了可擴展性,並降低了成本。這也是其他公司一直在效仿的技術。與此同時,Google 從未停止過對其後端技術的改進,以使其技術效率更高。
Google 搜索技術所依託的軟體可以同時進行一系列的運算,且只需片刻即可完成所有運算。而傳統的搜索引擎在很大程度上取決於文字在網頁上出現的頻率。Google 使用 PageRank™ 技術檢查整個網路鏈結結構,並確定哪些網頁重要性最高。然後進行超文本匹配分析,以確定哪些網頁與正在執行的特定搜索相關。在綜合考慮整體重要性以及與特定查詢的相關性之後,Google 可以將最相關最可靠的搜索結果放在首位。
PageRank 技術:通過對由超過 50,000 萬個變數和 20 億個辭彙組成的方程進行計算,PageRank 能夠對網頁的重要性做出客觀的評價。PageRank 並不計算直接鏈結的數量,而是將從網頁 A 指向網頁 B 的鏈結解釋為由網頁 A 對網頁 B 所投的一票。這樣,PageRank 會根據網頁 B 所收到的投票數量來評估該頁的重要性。
此外,PageRank 還會評估每個投票網頁的重要性,因為某些網頁的投票被認為具有較高的價值,這樣,它所鏈結的網頁就能獲得較高的價值。重要網頁獲得的 PageRank(網頁排名)較高,從而顯示在搜索結果的頂部。Google 技術使用網上反饋的綜合資訊來確定某個網頁的重要性。搜索結果沒有人工干預或操縱,這也是為什麼 Google 會成為一個廣受用戶信賴、不受付費排名影響且公正客觀的資訊來源。
超文本匹配分析:Google 的搜索引擎同時也分析網頁內容。然而,Google 的技術並不採用單純掃描基於網頁的文本(網站發佈商可以通過元標記控制這類文本)的方式,而是分析網頁的全部內容以及字體、分區及每個文字精確位置等因素。Google 同時還會分析相鄰網頁的內容,以確保返回與用戶查詢最相關的結果。
Google 的創新並不限於臺式機。 為了確保通過攜帶型設備訪問網路的用戶能夠快速獲得精確的搜索結果,Google 還率先推出了業界第一款無線搜索技術,以便將 HTML 即時轉換為針對 WAP、i-mode、J-SKY 和 EZWeb 優化的格式。


Quoted from Baidu 技術:
1. 基於字詞結合的資訊處理方式。巧妙解決了中文資訊的理解問題,極大地提高了搜索的準確性和查全率。
2. 支援主流的中文編碼標準。包括GBK(漢字內碼擴展規範)、GB2312(簡體)、BIG5(繁體),並且能夠在不同的編碼之間轉換。
3. 智慧相關度演算法。採用了基於內容和基於超鏈分析相結合的方法進行相關度評價,能夠客觀分析網頁所包含的資訊,從而最大限度保證了檢索結果相關性。
4. 檢索結果能標示豐富的網頁屬性(如標題、網址、時間、大小、編碼、摘要等),並突出用戶的查詢串,便於用戶判斷是否閱讀原文。
5. 百度搜索支援二次檢索(又稱漸進檢索或逼進檢索)。可在上次檢索結果中繼續檢索,逐步縮小查找範圍,直至達到最小、最準確的結果集。利於用戶更加方便地在海量資訊中找到自己真正感興趣的內容。
6. 相關檢索詞智慧推薦技術。在用戶第一次檢索後,會提示相關的檢索詞,幫助用戶查找更相關的結果,統計表明可以促進檢索量提升10-20%。
7. 運用多線程技術、高效的搜索演算法、穩定的UNIX平臺、和本地化的伺服器,保證了最快的回應速度。百度搜索引擎在中國境內提供搜索服務,可大大縮短檢索的回應時間(一個檢索的平均回應時間小於0.5秒)
8. 可以提供一周、二周、四周等多種服務方式。可以在7天之內完成網頁的更新,是目前更新時間最快、資料量最大的中文搜索引擎。
9. 檢索結果輸出支援內容類聚、網站類聚、內容類聚+網站類聚等多種方式。支援用戶選擇時間範圍,提高用戶檢索效率。
10. 智慧性、可擴展的搜索技術保證最快最多的收集互聯網資訊。擁有目前世界上最大的中文資訊庫,為用戶提供最準確、最廣泛、最具時效性的資訊提供了堅實基礎。
11. 分散式結構、精心設計的優化演算法、容錯設計保證系統在大訪問量下的高可用性、高擴展性、高性能和高穩定性。每個部分均採用N+1的冗餘設計,1台伺服器時刻處於備用狀態。因而整個系統能在99.9%的時間內提供高可用性和高穩定性的服務。
12. 高可配置性使得搜索服務能夠滿足不同用戶的需求。在搜索調度、相關性評價、內容過濾、顯示方式等方面均為客戶提供了可配置手段,使系統具有很大的靈活性和適應性。ICP站點通過調用百度搜索引擎的應用編程介面(API)調用搜索服務,由他們自行決定搜索結果的顯示方式,加入自己的廣告和公司圖示(logo)。
13. 先進的網頁動態摘要顯示技術。可以動態摘要顯示網頁中含有用戶查詢字串的任意位置文字,使用戶閱讀和判斷搜索結果更方便更快捷。
14. 獨有百度快照,巧妙解決了搜索用戶經常遇到的死鏈結問題。百度搜索引擎已先預覽各網站,拍下網頁的快照,為用戶貯存大量的應急網頁。百度快照不僅下載速度極快,而且已將用戶查詢字串用不同顏色在網頁中標記。
15. 支援多種高級檢索語法,使用戶查詢效率更高、結果更准。已支援"+"(AND)、"-"(NOT)、"|"(OR)、"site:"、"link:",還將繼續增加其他高效的搜索語法。


關於 Tsung

對新奇的事物都很有興趣, 喜歡簡單的東西, 過簡單的生活.
本篇發表於 文章。將永久鏈結加入書籤。

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步瞭解 Akismet 如何處理網站訪客的留言資料