關於 Google 的 PageRank 計算 及 Spam 的防範相關的文章.
編者按:透過位於山景城的一家搜尋引擎公司的一份專利申請書,可以中讓我們對這個搜尋引擎的PageRank技術內幕多一些瞭解。
網域名稱註冊時限
作為一個合法的網站擁有者來說,無不希望自己的網域名稱註冊至少已有一年的歷史。這是由於,對於Google的PageRank演算法來說,如果網站註冊時間不超過一年,那麼Google可能不會給該網域名稱分配應得的PR值,而是要低一些。
那些網站作弊的傢伙總是企圖將網域名稱註冊時間降至最低,也就是一年,但據Google的專利申請檔顯示,這其實是一種非常糟糕的做法。在Google專利申請檔的第40項聲明中就詳細指出:
在網域名稱相關資訊中至少應包含:網域名稱相關的網域名稱有效期資訊、網域名稱伺服器資訊、網域名稱伺服器記錄資訊三者之一。
Google希望能夠在網路搜尋世界中,坐穩“金標準”這個至高無上的位置。Google不懈努力尋求如何從搜尋結果中清除那些純屬欺騙網路用戶的站點的解決之道,Google這樣的做法只會進一步提高它在人們心目的聲望。
鏈結建立時間及鏈結內容的合理合法性
該專利申請書還透露了Google對鏈結的態度。那些在短短時間內就積累了大量外部鏈結的網頁或網站,在Google則可能會認為這個站點有利用不正當手段來愚弄搜尋引擎排名演算法之嫌。
該專利申請書中的許多聲明內容都指向了花費較多時間建立鏈結的行為、這些鏈結的新鮮性、以及這些鏈結的內容。這三者都是在Google的排名演算法中需要考慮到的因素。
所有這些聲明都顯示出網站應花費更多的時間來發展鏈結,而且應確保這些鏈結均有其合理合法的資訊來源。
內容的時新性
Google的這份專利申請書還透露出Google對網站內容的“新鮮性”的要求。Google看起來似乎對那些更新頻率高,但又不是過於頻繁的網站尤為垂青。這樣的網站在搜尋引擎結果中往往更容易得到較為顯著的位置。
專利申請書中這樣寫道:
有若干因素可影響到搜尋引擎所生成的搜尋結果的質量。例如,一些不良網站會利用作弊技術進行人工干預排名。同時,由於內容“陳舊”的文檔(例如 有相當一段時間未更新網站內容,造成網站資料內容陳舊)有可能會比內容時常更新的“時新”文檔(例如經常更新,因而包含更新的資料)排名高,在某些具體的 上下文中,比包含“時新資料”的網站排名更高的“陳舊”文檔會降低搜尋結果的質量。