課程簡介

AIOps 简介

  • AIOps 是什么及其重要性
  • 传统监控与 AIOps 驱动的可观测性对比
  • AIOps 架构及关键组件

收集与规范化运营数据

  • 可观测数据类型:指标、日志和追踪
  • 从多个来源(服务器、容器、云)摄取数据
  • 使用代理和导出器(Prometheus, Beats, Fluentd)

数据关联与异常检测

  • 时间序列关联与统计方法
  • 使用机器学习模型进行异常检测
  • 检测分布式系统中的事件

告警与噪声减少

  • 设计智能告警规则和阈值
  • 抑制、去重和告警分组
  • 与 Alertmanager、Slack、PagerDuty 或 Opsgenie 集成

根本原因分析与可视化

  • 使用仪表板可视化指标并检测趋势
  • 探索事件与时间线以进行根本原因分析
  • 使用分布式追踪工具跨层追踪问题

自动化与修复

  • 从事件触发自动化脚本或工作流
  • 与 ITSM 系统集成(ServiceNow, Jira)
  • 用例:自愈、扩展、流量重定向

开源与商业 AIOps 平台

  • 工具概述:Prometheus, Grafana, ELK, Moogsoft, Dynatrace
  • 选择 AIOps 平台的评估标准
  • 演示与选定的技术栈动手实践

总结与下一步

最低要求

  • 了解IT运维和系统监控的概念
  • 具备监控工具或仪表板的使用经验
  • 熟悉基本的日志和指标格式

受众

  • 负责基础设施和应用的运维团队
  • 站点可靠性工程师(SREs)
  • IT监控和可观测性团队
 14 時間:

人數


每位參與者的報價

Provisional Upcoming Courses (Require 5+ participants)

課程分類