Facebook 前幾天大當機,而且當機時間達 6小時,後來陸續慢慢恢復,到底發生什麼事情呢?
而因為 Facebook 太大了,造成了哪些影響呢?連自己維修都被自己卡到是什麼情況呢?
Facebook 當機6小時事件的前後影響
Facebook 大當機造成的影響範圍很大,全球有35億活躍用戶 (WhatApp 20億 + Facebook Messenger 13億 + Facebook、Instagram、Oculus 等等),全球無法連接長達 6小時。
下述整理自此篇:有權限的人進不去、會修的人不在現場,Facebook 大當機暴露出遠端工作最大的問題與悲歌
問題起源:從一次例行維護開始的
- 此次當機從外部觀察看是 Facebook BGP (邊界閘道協定) 出問題,什麼是 BGP?
- DNS 是網路的「地圖」,用來告訴你「x 在什麼地方」
- BGP 是這一「地圖」的「導航」部分,告訴你「怎麼走去 x 最快」
- 一位 Facebook 內部人士在 Reddit 爆料,當時的情況是:
- 會修的人連不上路由器也沒有登錄權限
- 有權限的人不會修也連不上
- 唯一在機房能接觸到路由設備的員工沒有權限也不會修
- 內部通訊工具(Facebook Messenger)也離線了,這三波人協作困難,雪上加霜
- 公司內部的混亂是全方位的
- 員工之間本來用公司自己的通訊工具(Facebook Messenger)溝通
- 臨時需要改用 Google文件 和 Zoom,但是,這些也要求使用 Facebook 帳號登入。系統崩潰讓這一切全都卡關
- 所以除了已經登入到 Google文件 等環境,剩下就用 微軟 Outlook 的工作郵箱、蘋果的 Facetime 等各種各樣的替代服務與同事聯繫
- 修復工作很顯然無法遠距完成,工程師們緊急「飛到」加州的主資料中心參與維修
此次教訓學到,什麼東西都會壞,當通訊軟體掛掉的時候,手機號碼還是記得互相留一下... XD