感謝您提交詢問!我們的一位團隊成員將在短時間內與您聯繫。
感謝您提交預訂!我們的一位團隊成員將在短時間內與您聯繫。
課程簡介
介紹
- 通過正強化學習
Elements 的 Reinforcement Learning
重要術語(操作、狀態、獎勵、政策、價值、Q 值等)
表格解決方案方法概述
創建 Software Agent
瞭解基於價值、基於策略和基於模型的方法
使用 Markov 決策過程 (MDP)
策略如何定義代理的行為方式
使用 Monte Carlo 方法
時間差異學習
n 步 Bootstrapping
近似求解方法
使用近似值進行策略預測
使用近似的策略控制
使用近似的非策略方法
了解資格跟蹤
使用策略梯度方法
總結和結論
最低要求
- 機器學習經驗
- Programming 經驗
觀眾
- 數據科學家
21 時間: