robots.txt 的白名單設定方式

Google / Bing 等搜尋引擎要爬網站,都會參考 robots.txt 有什麼規定。

那想要設定指允許一個網址,剩下的全部擋掉(白名單),這種規則若 robots.txt 有順序性的話,設定起來就會方便許多。

robots.txt 的白名單設定方式

Google 的 Developer 文件有寫 Robots.txt 的 Spec,詳見:Robots.txt Specifications | Google Developers

現在只是想要設定「允許一個網址,剩下的全部擋掉」,可以怎麼做呢?

一般正面表列的情況,就是 Allow 一個 和 Disallow 一卡車,想要簡單的作法,就是想要 Disallow ,再來 Allow 要開放的那一個即可,那這樣子做就需要知道 robots.txt 有沒有順序性。

雖然有 robots.txt 的 Spec,不過直接看範例應該會比較快,所以直接來參考 Google 的 Robots.txt,詳見:Google robots.txt

由 Google 的 robots.txt 可以參考到下述幾個:

  1. Disallow: /m?
  2. Disallow: /m/
  3. Allow: /m/finance

就是我們想要做的事情,所以順序就由上往下設定即可。

範例規則

  • 擋掉全部,允許 /m/profile

rotots.txt 的規則實做

  • User-agent:
  • Disallow: /
  • Allow: /m/profile

這樣子就可以囉~

相關網頁

作者: Tsung

對新奇的事物都很有興趣, 喜歡簡單的東西, 過簡單的生活.

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料