Robots.txt 有個 Crawl-delay 的設定參數,是要做什麼用的呢?
標籤: robots.txt
Google 開源 robots.txt 解析器 並推 REP 為正式標準
robots.txt 的文字檔裡面,可以設定哪些可以爬、哪些不要爬,大多數的搜尋引擎爬蟲都會遵守這個規範。
robots.txt 起源:Martijn Koster 在 1994年 建立 REP 的初期標準,再加上其它網站管理員的補充後,REP 已經成為產業標準,但是還沒成為官方的網路標準。
- robots.txt RFC:A Method for Web Robots Control
robots.txt 的白名單設定方式
Google / Bing 等搜尋引擎要爬網站,都會參考 robots.txt 有什麼規定。
那想要設定指允許一個網址,剩下的全部擋掉(白名單),這種規則若 robots.txt 有順序性的話,設定起來就會方便許多。
如何寫 robots.txt
哪些網頁不想被搜尋引擎抓到的話~~~ 就要設定 robots.txt..
參考如下網址
如果要 範例的話.. 就各大網站找 robots.txt 來看看吧.. XD