Googlebot 的 IP列表 與 驗證方式

Google 要爬各個網站的資料,會需要派出 Crawler (Googlebot) 來爬資料,最後才能搜尋。

但是要怎麼樣才能確認 Bot 真的是 Googlebot 呢?

閱讀全文〈Googlebot 的 IP列表 與 驗證方式〉

Google 與 Googlebot 是如何看待 HTTP status code

Google / Googlebot 並不是所有 HTTP 的狀態都會處理的,這個表有列出他處理哪些狀態,分別是怎麼處理方式:

Google Podcast 的專用標籤、RSS

搜尋引擎爬取文字、圖片的內容,Podcast 這些可以怎麼做呢?

Podcast 要在 Google 上線的話,會需要製作 RSS,而 RSS 有哪些必要的 Tag 呢?

閱讀全文〈Google Podcast 的專用標籤、RSS〉

PHP 於 Header 送 noindex 給 Crawler bot

某些頁面不想要讓 Search engine (Google、Bing) 的 crawler bot 爬,有幾種方法可以使用:

  1. HTML Meta Tag
  2. 使用 robots.txt
  3. 於 HTTP Header 送 X-Robots-Tag

此篇主要紀錄 HTTP Header 的作法

閱讀全文〈PHP 於 Header 送 noindex 給 Crawler bot〉

Google 開源 robots.txt 解析器 並推 REP 為正式標準

robots.txt 的文字檔裡面,可以設定哪些可以爬、哪些不要爬,大多數的搜尋引擎爬蟲都會遵守這個規範。

robots.txt 起源:Martijn Koster 在 1994年 建立 REP 的初期標準,再加上其它網站管理員的補充後,REP 已經成為產業標準,但是還沒成為官方的網路標準。

閱讀全文〈Google 開源 robots.txt 解析器 並推 REP 為正式標準〉