感謝您提交詢問!我們的一位團隊成員將在短時間內與您聯繫。
感謝您提交預訂!我們的一位團隊成員將在短時間內與您聯繫。
課程簡介
AI主權與大語言模型本地部署
- 雲大語言模型的風險:數據保留、輸入訓練、外國管轄權。
- Ollama架構:模型服務器、註冊表和OpenAI兼容API。
- 與vLLM、llama.cpp和Text Generation Inference的對比。
- 模型許可:Llama、Mistral、Qwen和Gemma條款。
安裝與硬件設置
- 在支持CUDA和ROCm的Linux上安裝Ollama。
- 僅CPU回退和AVX/AVX2優化。
- Docker部署和持久卷映射。
- 多GPU設置和VRAM分配策略。
模型管理
- 從Ollama註冊表拉取模型:ollama pull llama3。
- 從HuggingFace和TheBloke導入GGUF模型。
- 量化級別:Q4_K_M、Q5_K_M、Q8_0的權衡。
- 模型切換和併發模型加載限制。
自定義Modelfiles
- 編寫Modelfile語法:FROM、PARAMETER、SYSTEM、TEMPLATE。
- 溫度、top_p和repeat_penalty調優。
- 系統提示工程以實現角色特定行爲。
- 創建自定義模型併發布到本地註冊表。
API集成
- OpenAI兼容的/v1/chat/completions端點。
- 流式響應和JSON模式。
- 與LangChain、LlamaIndex和自定義應用程序集成。
- 使用反向代理進行身份驗證和速率限制。
性能優化
- 上下文窗口大小和KV緩存管理。
- 批量推理和並行請求處理。
- CPU線程分配和NUMA感知。
- 監控GPU利用率和內存壓力。
安全與合規
- 模型服務端點的網絡隔離。
- 輸入過濾和輸出審覈管道。
- 提示和完成日誌的審計。
- 模型來源和哈希驗證。
最低要求
- 中級Linux和容器管理經驗。
- 對機器學習和Transformer模型有基本瞭解。
- 熟悉REST API和JSON。
目標受衆
- 希望替換雲大語言模型API的AI工程師和開發者。
- 因數據敏感性無法使用雲模型的組織。
- 需要物理隔離語言模型的政府和國防團隊。
14 小時