聯繫我們

課程簡介

EXO與本地AI集羣簡介

  • EXO框架及exo-explore生態系統概述
  • 集中式雲推理與分佈式本地推理的比較
  • 架構:libp2p設備發現、MLX後端、儀表盤和API層
  • 硬件要求:Apple Silicon(M3 Ultra、M4 Pro/Max)、Thunderbolt 5、共享存儲

在macOS上安裝EXO

  • 設置Xcode、Metal ToolChain和macOS先決條件
  • 安裝uv、Node.js、Rust nightly工具鏈
  • 安裝用於Apple Silicon監控的pinned macmon fork
  • 克隆倉庫並使用npm構建儀表盤
  • 從源碼運行EXO並驗證localhost:52415儀表盤

在Linux上安裝EXO

  • 通過apt或Homebrew在Linux上安裝依賴項
  • 配置uv、Node.js 18+和Rust nightly
  • 構建儀表盤並以CPU-only模式運行EXO
  • 目錄佈局:XDG基本目錄路徑,用於配置、數據、緩存和日誌

自動設備發現與集羣形成

  • 理解基於libp2p的本地網絡自動發現
  • 使用EXO_LIBP2P_NAMESPACE配置自定義命名空間以實現集羣隔離
  • 在儀表盤集羣視圖中驗證節點成員資格
  • 處理發現失敗和網絡分段問題

啓用Thunderbolt 5上的RDMA

  • RDMA架構及99%延遲降低聲明
  • 在macOS恢復模式下使用rdma_ctl啓用RDMA
  • Mac Studio上的線纜要求和端口拓撲限制
  • 確保所有集羣節點的macOS版本一致
  • 排查RDMA發現和DHCP配置問題

部署前沿模型

  • 使用儀表盤加載並分片DeepSeek v3.1、Qwen3-235B和Llama系列模型
  • 通過/instance/previews API端點預覽實例放置
  • 使用管道或張量並行分片創建模型實例
  • 從HuggingFace hub配置自定義模型卡片

監控與故障排除

  • 閱讀EXO日誌並理解分佈式跟蹤
  • 在儀表盤集羣視圖中解讀集羣健康狀況
  • 診斷工作節點故障和重連行爲
  • 使用EXO_TRACING_ENABLED進行性能瓶頸分析

集羣維護與更新

  • 更新EXO二進制文件及儀表盤重建流程
  • 遷移模型緩存並通過NFS管理預下載模型
  • 優雅移除節點並重新平衡工作負載

最低要求

  • 瞭解網絡基礎知識(IP、子網劃分、防火牆)
  • 具備macOS或Linux命令行管理經驗
  • 熟悉Python包管理(pip/uv)和Node.js工具

受衆

  • 系統管理員
  • DevOps工程師
  • 負責本地LLM部署的AI基礎設施架構師
 21 小時

人數


每位參與者的報價

即將到來的課程

課程分類