〈crawler 〉彙整頁面

OpenAI 的 Crawler Bot User Agent

OpenAI 現在最知名的服務就是：ChatGPT

不管詢問問題、資料蒐集等等，最基本的 Crawler(Bot) 都還是需要的，而且現在來的量越來越兇，稍微紀錄一下有哪些~

Robots.txt 有個 Crawl-delay 的設定參數，是要做什麼用的呢？

Google / Googlebot 並不是所有 HTTP 的狀態都會處理的，這個表有列出他處理哪些狀態，分別是怎麼處理方式：

How HTTP status codes, and network and DNS errors affect Google Search
- We cover the top 20 status codes that Googlebot encountered on the web, and the most prominent network and DNS errors.
- Googlebot 在網路上最常遇到的 20 種狀態碼，以及最為常見的網路錯誤和 DNS 錯誤。較為罕見的狀態碼 (例如 418 (I'm a teapot))
  - 裡面特別提到 418 是不支援的，418 是什麼？可以參考此篇：HTTP Status Code 418：teapot 茶壺

Googlebot 來爬得太兇，要如何請他降速？

搜尋引擎爬取文字、圖片的內容，Podcast 這些可以怎麼做呢？

Podcast 要在 Google 上線的話，會需要製作 RSS，而 RSS 有哪些必要的 Tag 呢？

某些頁面不想要讓 Search engine (Google、Bing) 的 crawler bot 爬，有幾種方法可以使用：

此篇主要紀錄 HTTP Header 的作法

robots.txt 的文字檔裡面，可以設定哪些可以爬、哪些不要爬，大多數的搜尋引擎爬蟲都會遵守這個規範。

robots.txt 起源：Martijn Koster 在 1994年建立 REP 的初期標準，再加上其它網站管理員的補充後，REP 已經成為產業標準，但是還沒成為官方的網路標準。

「大腦的排毒時段與睡姿建議 - Tsung's Blog」於〈側睡、仰睡、趴睡的優缺點〉發佈留言2025 年 07 月 29 日
[…] 側睡、仰睡、趴睡的…
「Hank」於〈Ubuntu 24.x 遇到 Failed to start gdm.service 修復〉發佈留言2025 年 06 月 26 日
非常感谢。完美解决了我的问题，确实是安装…
「Tsung」於〈Ubuntu 24.x 遇到 Failed to start gdm.service 修復〉發佈留言2025 年 06 月 26 日
很高興能對您有些幫助~ 感謝~~ :)
「Hank」於〈Ubuntu 24.x 遇到 Failed to start gdm.service 修復〉發佈留言2025 年 06 月 26 日
非常感谢，这个博客完美解决了我的问题。确…
「Tsung」於〈一頁式網購詐騙的幾個判斷方式〉發佈留言2025 年 06 月 20 日
嗯嗯，手法都是大同小異的~~