線上系統不可能不發生故障事件,遇到時直接重啟服務就好了!?這樣一來 SRE 不就變成 Service Restart Engineering 了,雖然系統故障原因有很多種,但應該要有一套完整且科學的做法,讓系統盡可能在短時間內恢復正常進而確保服務品質;所以此分享將公開自己組織內所建立的 On-Call 文化,從監控系統開始談起,接著提到事件發生時的應對方式,最後討論故障排除後該做的事情,雖然不一定能適用於不同的組織,但希望能給身在同一個領域的從業人員參考。
原來只是一介草 QA,但開始研究自動化維運雲端服務後,便一頭栽進 DevOps 的世界裏,熱愛鑽研各種可以提升雲端服務品質及增進團隊開發效率的開源技術,並且協助組織導入CI/CD;工作之餘喜歡跟大家一起分享和切磋技術,有時候會出現在社群或是企業內部擔任野生的講者。