Google 要爬各個網站的資料,會需要派出 Crawler (Googlebot) 來爬資料,最後才能搜尋。
但是要怎麼樣才能確認 Bot 真的是 Googlebot 呢?
個人筆記, 記錄關於 系統、程式、新聞 與 日常生活 等資訊
Google 要爬各個網站的資料,會需要派出 Crawler (Googlebot) 來爬資料,最後才能搜尋。
但是要怎麼樣才能確認 Bot 真的是 Googlebot 呢?
Google / Googlebot 並不是所有 HTTP 的狀態都會處理的,這個表有列出他處理哪些狀態,分別是怎麼處理方式:
Googlebot 來爬得太兇,要如何請他降速?
Googlebot 以前都使用 Chrome 41.0 的引擎來 Rendering (解析) JavaScript,預計要更新成 Chromium 最新的版本 (74.0+)。
由 access.log 可以看到下述:
"Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
不過,雖然宣佈了,目前暫時還沒看到新版的 Bot 來的跡象~