Facebook 當機6小時事件的前後影響 - 2021

Facebook 前幾天大當機,而且當機時間達 6小時,後來陸續慢慢恢復,到底發生什麼事情呢?

而因為 Facebook 太大了,造成了哪些影響呢?連自己維修都被自己卡到是什麼情況呢?

Facebook 當機6小時事件的前後影響

Facebook 大當機造成的影響範圍很大,全球有35億活躍用戶 (WhatApp 20億 + Facebook Messenger 13億 + Facebook、Instagram、Oculus 等等),全球無法連接長達 6小時。

下述整理自此篇:有權限的人進不去、會修的人不在現場,Facebook 大當機暴露出遠端工作最大的問題與悲歌

問題起源:從一次例行維護開始的

  • 此次當機從外部觀察看是 Facebook BGP (邊界閘道協定) 出問題,什麼是 BGP?
    • DNS 是網路的「地圖」,用來告訴你「x 在什麼地方」
    •  BGP 是這一「地圖」的「導航」部分,告訴你「怎麼走去 x 最快」
  • 一位 Facebook 內部人士在 Reddit 爆料,當時的情況是:
    • 會修的人連不上路由器也沒有登錄權限
    • 有權限的人不會修也連不上
    • 唯一在機房能接觸到路由設備的員工沒有權限也不會修
  • 內部通訊工具(Facebook Messenger)也離線了,這三波人協作困難,雪上加霜
    • 公司內部的混亂是全方位的
    • 員工之間本來用公司自己的通訊工具(Facebook Messenger)溝通
    • 臨時需要改用 Google文件 和 Zoom,但是,這些也要求使用 Facebook 帳號登入。系統崩潰讓這一切全都卡關
    • 所以除了已經登入到 Google文件 等環境,剩下就用 微軟 Outlook 的工作郵箱、蘋果的 Facetime 等各種各樣的替代服務與同事聯繫
  • 修復工作很顯然無法遠距完成,工程師們緊急「飛到」加州的主資料中心參與維修

此次教訓學到,什麼東西都會壞,當通訊軟體掛掉的時候,手機號碼還是記得互相留一下... XD

作者: Tsung

對新奇的事物都很有興趣, 喜歡簡單的東西, 過簡單的生活.

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料