Google / Bing 等搜尋引擎要爬網站,都會參考 robots.txt 有什麼規定。
那想要設定指允許一個網址,剩下的全部擋掉(白名單),這種規則若 robots.txt 有順序性的話,設定起來就會方便許多。
robots.txt 的白名單設定方式
Google 的 Developer 文件有寫 Robots.txt 的 Spec,詳見:Robots.txt Specifications | Google Developers
現在只是想要設定「允許一個網址,剩下的全部擋掉」,可以怎麼做呢?
一般正面表列的情況,就是 Allow 一個 和 Disallow 一卡車,想要簡單的作法,就是想要 Disallow ,再來 Allow 要開放的那一個即可,那這樣子做就需要知道 robots.txt 有沒有順序性。
雖然有 robots.txt 的 Spec,不過直接看範例應該會比較快,所以直接來參考 Google 的 Robots.txt,詳見:Google robots.txt
由 Google 的 robots.txt 可以參考到下述幾個:
- Disallow: /m?
- Disallow: /m/
- Allow: /m/finance
就是我們想要做的事情,所以順序就由上往下設定即可。
範例規則
- 擋掉全部,允許 /m/profile
rotots.txt 的規則實做
- User-agent:
- Disallow: /
- Allow: /m/profile
這樣子就可以囉~