Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
課程簡介
AIOps 简介
- AIOps 是什么及其重要性
- 传统监控与 AIOps 驱动的可观测性对比
- AIOps 架构及关键组件
收集与规范化运营数据
- 可观测数据类型:指标、日志和追踪
- 从多个来源(服务器、容器、云)摄取数据
- 使用代理和导出器(Prometheus, Beats, Fluentd)
数据关联与异常检测
- 时间序列关联与统计方法
- 使用机器学习模型进行异常检测
- 检测分布式系统中的事件
告警与噪声减少
- 设计智能告警规则和阈值
- 抑制、去重和告警分组
- 与 Alertmanager、Slack、PagerDuty 或 Opsgenie 集成
根本原因分析与可视化
- 使用仪表板可视化指标并检测趋势
- 探索事件与时间线以进行根本原因分析
- 使用分布式追踪工具跨层追踪问题
自动化与修复
- 从事件触发自动化脚本或工作流
- 与 ITSM 系统集成(ServiceNow, Jira)
- 用例:自愈、扩展、流量重定向
开源与商业 AIOps 平台
- 工具概述:Prometheus, Grafana, ELK, Moogsoft, Dynatrace
- 选择 AIOps 平台的评估标准
- 演示与选定的技术栈动手实践
总结与下一步
最低要求
- 了解IT运维和系统监控的概念
- 具备监控工具或仪表板的使用经验
- 熟悉基本的日志和指标格式
受众
- 负责基础设施和应用的运维团队
- 站点可靠性工程师(SREs)
- IT监控和可观测性团队
14 時間: