課程簡介

Apache Airflow 簡介

  • 什麼是工作流編排
  • Apache Airflow 的主要功能和優勢
  • Airflow 2.x 的改進和生態系統概述

架構與核心概念

  • 調度器、Web服務器和工作進程
  • DAGs、任務和操作符
  • 執行器和後端(Local、Celery、Kubernetes)

安裝與設置

  • 在本地和雲環境中安裝 Airflow
  • 配置不同執行器的 Airflow
  • 設置元數據數據庫和連接

導航 Airflow UI 和 CLI

  • 探索 Airflow 網頁界面
  • 監控 DAG 運行、任務和日誌
  • 使用 Airflow CLI 進行管理

編寫和管理 DAGs

  • 使用 TaskFlow API 創建 DAGs
  • 使用操作符、傳感器和鉤子
  • 管理依賴關係和調度間隔

將 Airflow 與數據和雲服務集成

  • 連接到數據庫、API 和消息隊列
  • 使用 Airflow 運行 ETL 管道
  • 雲集成:AWS、GCP、Azure 操作符

監控與可觀測性

  • 任務日誌和即時監控
  • 使用 Prometheus 和 Grafana 的指標
  • 通過電子郵件或 Slack 發送警報和通知

保護 Apache Airflow

  • 基於角色的訪問控制(RBAC)
  • 使用 LDAP、OAuth 和 SSO 進行身份驗證
  • 使用 Vault 和雲密鑰管理存儲管理密鑰

擴展 Apache Airflow

  • 並行性、併發性和任務隊列
  • 使用 CeleryExecutor 和 KubernetesExecutor
  • 使用 Helm 在 Kubernetes 上部署 Airflow

生產環境的最佳實踐

  • DAGs 的版本控制和 CI/CD
  • 測試和調試 DAGs
  • 在大規模環境中保持可靠性和性能

故障排除與優化

  • 調試失敗的 DAGs 和任務
  • 優化 DAG 性能
  • 常見陷阱及如何避免

總結與下一步

最低要求

  • 具備Python編程經驗
  • 熟悉數據工程或DevOps概念
  • 瞭解ETL或工作流編排

受衆

  • 數據科學家
  • 數據工程師
  • DevOps和基礎設施工程師
  • 軟件開發人員
 21 時間:

人數


每位參與者的報價

客戶評論 (7)

即將到來的課程

課程分類