感謝您提交詢問!我們的一位團隊成員將在短時間內與您聯繫。
感謝您提交預訂!我們的一位團隊成員將在短時間內與您聯繫。
課程簡介
1. 深度強化學習簡介
- 什麼是強化學習?
- 監督學習、無監督學習與強化學習的區別
- 2025年深度強化學習的應用(機器人、醫療、金融、物流)
- 理解智能體與環境交互循環
2. 強化學習基礎
- 馬爾可夫決策過程(MDP)
- 狀態、動作、獎勵、策略和值函數
- 探索與利用的權衡
- 蒙特卡洛方法和時序差分(TD)學習
3. 實現基礎強化學習算法
- 表格方法:動態規劃、策略評估與迭代
- Q學習與SARSA
- ε-貪心探索與衰減策略
- 使用OpenAI Gymnasium實現強化學習環境
4. 過渡到深度強化學習
- 表格方法的侷限性
- 使用神經網絡進行函數逼近
- 深度Q網絡(DQN)架構與工作流程
- 經驗回放與目標網絡
5. 高級深度強化學習算法
- 雙DQN、Dueling DQN與優先經驗回放
- 策略梯度方法:REINFORCE算法
- Actor-Critic架構(A2C、A3C)
- 近端策略優化(PPO)
- 軟Actor-Critic(SAC)
6. 處理連續動作空間
- 連續控制的挑戰
- 使用深度確定性策略梯度(DDPG)
- 雙延遲DDPG(TD3)
7. 實用工具與框架
- 使用Stable-Baselines3與Ray RLlib
- 使用TensorBoard進行日誌記錄與監控
- 深度強化學習模型的超參數調優
8. 獎勵工程與環境設計
- 獎勵塑造與懲罰平衡
- 模擬到現實的遷移學習概念
- 在Gymnasium中創建自定義環境
9. 部分可觀測環境與泛化
- 處理不完全狀態信息(POMDPs)
- 使用LSTM與RNN的記憶方法
- 提高智能體的魯棒性與泛化能力
10. 博弈論與多智能體強化學習
- 多智能體環境簡介
- 合作與競爭
- 對抗訓練與策略優化中的應用
11. 案例研究與實際應用
- 自動駕駛模擬
- 動態定價與金融交易策略
- 機器人與工業自動化
12. 故障排除與優化
- 診斷不穩定的訓練
- 管理獎勵稀疏性與過擬合
- 在GPU與分佈式系統上擴展深度強化學習模型
13. 總結與下一步
- 回顧深度強化學習架構與關鍵算法
- 行業趨勢與研究方向(如RLHF、混合模型)
- 進一步學習資源與閱讀材料
最低要求
- 熟練掌握Python編程
- 理解微積分和線性代數
- 具備概率論與統計學的基礎知識
- 有使用Python和NumPy或TensorFlow/PyTorch構建機器學習模型的經驗
受衆
- 對AI和智能系統感興趣的開發者
- 探索強化學習框架的數據科學家
- 從事自主系統工作的機器學習工程師
21 小時
客戶評論 (3)
我非常喜歡最後我們花時間一起探索CHAT GPT的部分。不過房間的佈置不是最佳選擇,如果能有幾張小組桌,而不是一張大桌子,這樣我們可以分成小組進行頭腦風暴,效果會更好。
Nola - Laramie County Community College
課程 - Artificial Intelligence (AI) Overview
機器翻譯
從第一性原理出發,專注於實踐,並在同一天內應用案例分析
Maggie Webb - Department of Jobs, Regions, and Precincts
課程 - Artificial Neural Networks, Machine Learning, Deep Thinking
機器翻譯
它應用了真實的公司數據。培訓師採用了一種非常好的方法,讓學員參與並競爭。
Jimena Esquivel - Zaklad Uslugowy Hakoman Andrzej Cybulski
課程 - Applied AI from Scratch in Python
機器翻譯