議程介紹

15:20 - 15:45
SRE 如何實踐可視性告警
# AIOps # SRE實例 # 自動化維運
  • 通識

IT 維運必須從端到端完整涵蓋,每一個節點都可能有監控管理工具。

當問題發生,這些斷點很可能都會發出告警,但卻不一定是根本原因。

以往面臨這種情況,或許還能仰賴人工設定的規則來加以辨識,但隨著環境愈來愈複雜、告警事件愈來愈多,已難以透過人工處理。

這其實也是 AIOps 能夠展現效益的地方,如何從眾多的告警問題中透過機器學習,自動地進行歸類、判斷事件的關聯性,作為提供給 SRE 事件後續檢討改善。


聽眾收穫:了解告警不是只有接收告警然後去救火,再多數告警中快速理出脈絡以及如何可以應用在 AI 上深入強化 SRE 的工具。

 Share 共筆連結
江俊誼 (Brian)
江俊誼 (Brian)
國泰世華
副理

Brian 目前擔任國泰世華 SRE,負責 PaaS 平台穩定工作,強化監控與告警設計,讓系統負責人即時或是早先一步收到告警資訊進而提早解決可能發生的問題。