課程簡介

強化學習與Agentic AI簡介

  • 不確定條件下的決策制定與序列規劃
  • RL的關鍵組成部分:智能體、環境、狀態和獎勵
  • RL在自適應和agentic AI系統中的作用

馬爾可夫決策過程(MDPs)

  • MDPs的正式定義與性質
  • 價值函數、貝爾曼方程和動態規劃
  • 策略評估、改進與迭代

無模型強化學習

  • 蒙特卡洛與時序差分(TD)學習
  • Q學習與SARSA
  • 實踐:在Python中實現表格RL方法

深度強化學習

  • 將神經網絡與RL結合用於函數逼近
  • 深度Q網絡(DQN)與經驗回放
  • 演員-評論家架構與策略梯度
  • 實踐:使用Stable-Baselines3訓練DQN和PPO智能體

探索策略與獎勵塑造

  • 平衡探索與利用(ε-貪婪、UCB、熵方法)
  • 設計獎勵函數並避免意外行爲
  • 獎勵塑造與課程學習

強化學習與決策制定的高級主題

  • 多智能體強化學習與合作策略
  • 分層強化學習與選項框架
  • 離線RL與模仿學習以實現更安全的部署

仿真環境與評估

  • 使用OpenAI Gym與自定義環境
  • 連續與離散動作空間
  • 智能體性能、穩定性和樣本效率的評估指標

將RL集成到Agentic AI系統中

  • 在混合智能體架構中結合推理與RL
  • 將強化學習與工具使用智能體集成
  • 擴展與部署的操作注意事項

畢業項目

  • 設計並實現一個用於仿真任務的強化學習智能體
  • 分析訓練性能並優化超參數
  • 在agentic上下文中展示自適應行爲與決策制定

總結與下一步

最低要求

  • 熟練掌握Python編程
  • 紮實的機器學習和深度學習概念基礎
  • 熟悉線性代數、概率論和基本優化方法

目標受衆

  • 強化學習工程師和應用AI研究人員
  • 機器人和自動化開發人員
  • 從事自適應和agentic AI系統開發的工程團隊
 28 時間:

人數


每位參與者的報價

客戶評論 (3)

即將到來的課程

課程分類