課程簡介

性能概念與指標

  • 延遲、吞吐量、功耗、資源利用率
  • 系統與模型層級的瓶頸
  • 推理與訓練的性能分析

在Huawei Ascend上的性能分析

  • 使用CANN Profiler和MindInsight
  • 內核與運算元診斷
  • 卸載模式與內存映射

在Biren GPU上的性能分析

  • Biren SDK的性能監控功能
  • 內核融合、內存對齊與執行隊列
  • 功耗與溫度感知的性能分析

在Cambricon MLU上的性能分析

  • BANGPy與Neuware性能工具
  • 內核級別的可視化與日誌解讀
  • MLU性能分析工具與部署框架的集成

圖與模型層級優化

  • 圖剪枝與量化策略
  • 運算元融合與計算圖重構
  • 輸入尺寸標準化與批次調優

內存與內核優化

  • 優化內存布局與重用
  • 跨芯片組的高效緩存管理
  • 基於平台的內核級調優技術

跨平台最佳實踐

  • 性能可移植性:抽象策略
  • 為多芯片環境構建共享調優管道
  • 示例:在Ascend、Biren與MLU上調優物件檢測模型

總結與下一步

最低要求

  • 具備AI模型訓練或部署管道的相關經驗
  • 了解GPU/MLU計算原理及模型優化
  • 對性能分析工具和指標有基本熟悉度

目標受眾

  • 性能工程師
  • 機器學習基礎設施團隊
  • AI系統架構師
 21 時間:

人數


每位參與者的報價

Provisional Upcoming Courses (Require 5+ participants)

課程分類