感謝您提交詢問!我們的一位團隊成員將在短時間內與您聯繫。
感謝您提交預訂!我們的一位團隊成員將在短時間內與您聯繫。
課程簡介
簡介與診斷基礎
- LLM系統的故障模式概述及常見的Ollama特定問題
- 建立可重現的實驗與控制環境
- 調試工具集:本地日誌、請求/響應捕獲及沙盒環境
重現與隔離故障
- 創建最小失敗範例與種子的技巧
- 有狀態與無狀態交互:隔離與上下文相關的錯誤
- 確定性、隨機性與控制非確定性行為
行為評估與指標
- 定量指標:準確性、ROUGE/BLEU變體、校準與困惑度代理
- 定性評估:人工評分與評分標準設計
- 任務特定保真度檢查與驗收標準
自動化測試與回歸
- 提示與組件的單元測試、場景與端到端測試
- 創建回歸套件與黃金範例基準
- Ollama模型更新的CI/CD集成與自動化驗證閘門
可觀察性與監控
- 結構化日誌、分散式追蹤與關聯ID
- 關鍵運營指標:延遲、令牌使用、錯誤率與質量信號
- 模型支援服務的警報、儀表板與SLIs/SLOs
高級根本原因分析
- 追蹤圖形化提示、工具調用與多輪流程
- 比較A/B診斷與消融研究
- 數據來源、數據集調試與解決數據集引起的故障
安全性、魯棒性與補救策略
- 緩解措施:過濾、基礎化、檢索增強與提示框架
- 模型更新的回滾、金絲雀與分階段推出模式
- 事後分析、經驗教訓與持續改進循環
總結與下一步
最低要求
- 具備構建和部署LLM應用的豐富經驗
- 熟悉Ollama工作流程和模型託管
- 熟練使用Python、Docker及基本的可觀測性工具
受眾
- AI工程師
- ML Ops專業人員
- 負責生產LLM系統的QA團隊
35 時間: