課程簡介

SRE反模式

  • 識別反效果的做法
  • 認識反模式對可靠性的影響
  • 最佳實踐和糾正方案

SLO作爲客戶滿意度的代理

  • 定義服務級別指標(SLIs)和服務級別目標(SLOs)
  • 管理錯誤預算,平衡創新與可靠性
  • 理解分佈式系統的限制

構建安全可靠的系統

  • 設計容錯和彈性系統
  • 將安全性融入可靠性工程
  • 可擴展性和數據保護策略

全棧可觀測性

  • 儀表化和指標收集
  • 分佈式追蹤和合成監控
  • 可觀測性驅動開發

Platform Engineering 和 AIOps

  • 以平臺爲中心的工程方法
  • SRE中的自動化和編排
  • 利用DataOps和運營智能

SRE中的事件Management

  • 事件響應中的角色和職責
  • 應用OODA等框架
  • 自動化修復和AI/ML輔助解決方案

混沌工程

  • 彈性測試的原則和策略
  • 規劃和執行“遊戲日”演練
  • 從受控故障實驗中學習

SRE作爲DevOps的純粹形式

  • 將SRE融入DevOps工作流程
  • 文化對齊和協作實踐
  • 通過SRE推動組織變革

課後練習

  • 大規模系統設計案例研究
  • 高級儀表化和監控場景
  • 現實世界的可靠性問題解決

複習和考試準備

  • 最終複習DevOps Institute SRE Practitioner大綱
  • 樣題和模擬測試
  • 考試策略和建議

總結和下一步

最低要求

  • 理解Site Reliability Engineering(SRE)的核心原則
  • 具備DevOps實踐及相關工具的經驗
  • 熟悉系統監控、事件管理和自動化

受衆

  • 尋求DevOps Institute SRE Practitioner認證的SRE專業人員
  • 希望擴展到以可靠性爲重點的角色的DevOps工程師
  • 負責可靠性策略和執行的運維領導者
 35 時間:

人數


每位參與者的報價

客戶評論 (4)

Provisional Upcoming Courses (Require 5+ participants)

課程分類