〈bot 〉彙整頁面 - Tsung's Blog

OpenAI 的 Crawler Bot User Agent

OpenAI 現在最知名的服務就是：ChatGPT

不管詢問問題、資料蒐集等等，最基本的 Crawler(Bot) 都還是需要的，而且現在來的量越來越兇，稍微紀錄一下有哪些~

閱讀全文〈OpenAI 的 Crawler Bot User Agent〉

Google 推出聊天機器人 Bard 來對抗微軟Bing 的 ChatGPT

Google 和微軟近期的新聞還蠻有趣的。

首次看到「聊天機器人」回應的答案不準，然後股價跌 8% 的.

這個「聊天」的定義會不會太苛刻了點... XD

閱讀全文〈Google 推出聊天機器人 Bard 來對抗微軟Bing 的 ChatGPT〉

Robots.txt 寫 Crawl-delay 的作用

Robots.txt 有個 Crawl-delay 的設定參數，是要做什麼用的呢？

閱讀全文〈Robots.txt 寫 Crawl-delay 的作用〉

Google 與 Googlebot 是如何看待 HTTP status code

Google / Googlebot 並不是所有 HTTP 的狀態都會處理的，這個表有列出他處理哪些狀態，分別是怎麼處理方式：

How HTTP status codes, and network and DNS errors affect Google Search
- We cover the top 20 status codes that Googlebot encountered on the web, and the most prominent network and DNS errors.
- Googlebot 在網路上最常遇到的 20 種狀態碼，以及最為常見的網路錯誤和 DNS 錯誤。較為罕見的狀態碼 (例如 418 (I'm a teapot))
  - 裡面特別提到 418 是不支援的，418 是什麼？可以參考此篇：HTTP Status Code 418：teapot 茶壺

PHP 於 Header 送 noindex 給 Crawler bot

某些頁面不想要讓 Search engine (Google、Bing) 的 crawler bot 爬，有幾種方法可以使用：

HTML Meta Tag
使用 robots.txt
於 HTTP Header 送 X-Robots-Tag

此篇主要紀錄 HTTP Header 的作法

閱讀全文〈PHP 於 Header 送 noindex 給 Crawler bot〉

Google 開源 robots.txt 解析器並推 REP 為正式標準

robots.txt 的文字檔裡面，可以設定哪些可以爬、哪些不要爬，大多數的搜尋引擎爬蟲都會遵守這個規範。

robots.txt 起源：Martijn Koster 在 1994年建立 REP 的初期標準，再加上其它網站管理員的補充後，REP 已經成為產業標準，但是還沒成為官方的網路標準。

robots.txt RFC：A Method for Web Robots Control

閱讀全文〈Google 開源 robots.txt 解析器並推 REP 為正式標準〉

「大腦的排毒時段與睡姿建議 - Tsung's Blog」於〈側睡、仰睡、趴睡的優缺點〉發佈留言2025 年 07 月 29 日
[…] 側睡、仰睡、趴睡的…
「Hank」於〈Ubuntu 24.x 遇到 Failed to start gdm.service 修復〉發佈留言2025 年 06 月 26 日
非常感谢。完美解决了我的问题，确实是安装…
「Tsung」於〈Ubuntu 24.x 遇到 Failed to start gdm.service 修復〉發佈留言2025 年 06 月 26 日
很高興能對您有些幫助~ 感謝~~ :)
「Hank」於〈Ubuntu 24.x 遇到 Failed to start gdm.service 修復〉發佈留言2025 年 06 月 26 日
非常感谢，这个博客完美解决了我的问题。确…
「Tsung」於〈一頁式網購詐騙的幾個判斷方式〉發佈留言2025 年 06 月 20 日
嗯嗯，手法都是大同小異的~~