色综合色天天久久婷婷基地中文字幕爆乳巨爆乳系列,国产精品有码无码AV在线播放

強化學習與深度強化學習

2025-06-04 06:18:48

講(jiang)師(shi)：葉梓瀏(liu)覽次數：3030

課程介紹
日程安排
課程大綱
在線報名

課程描述INTRODUCTION

強(qiang)(qiang)化學(xue)(xue)(xue)習是(shi)當前最(zui)熱門的研究方(fang)向之一，廣泛應用于機器人學(xue)(xue)(xue)、電(dian)子競技等(deng)領域(yu)。本課程(cheng)系統性的介(jie)紹了強(qiang)(qiang)化學(xue)(xue)(xue)習（深度強(qiang)(qiang)化學(xue)(xue)(xue)習）的基本理論和關(guan)鍵算法(fa)，包(bao)括：馬爾(er)科(ke)夫決策(ce)過程(cheng)、動態(tai)規(gui)劃法(fa)、蒙特卡(ka)羅法(fa)、時(shi)間差分法(fa)、值函(han)數逼(bi)近(jin)法(fa)，策(ce)略梯(ti)度法(fa)等(deng)；以及(ji)該領域(yu)的*前沿(yan)發展，包(bao)括：DQN及(ji)其變種、信賴域(yu)系方(fang)法(fa)、Actor-Critic類方(fang)法(fa)、多Agent深度強(qiang)(qiang)化學(xue)(xue)(xue)習等(deng)；同時(shi)也介(jie)紹大(da)量的實際案例(li)，包(bao)括深度強(qiang)(qiang)化學(xue)(xue)(xue)習中最(zui)*的工程(cheng)應用：Alpha Go。

· IT人士· 技術總監· 軟件工程師· 技術主管· 研發經理

培訓講師：葉梓

課程價格：￥元/人

培訓天數：3天

日程安排SCHEDULE

課程大綱Syllabus

強化學習課程

第一天強化學習
第一課強化學習綜述
1.強化學習要解決的問題
2.強化學習方法的分類
3.強化學習方法的發展趨勢
4.環境搭建實驗（Gym，TensorFlow等）
5.Gym環(huan)境的基本使(shi)用方(fang)法

第二課馬爾科夫決策過程
1.基本概念：馬爾科夫性、馬爾科夫過程、馬爾科夫決策過程
2.MDP基本元素:策略、回報、值函數、狀態行為值函數
3.貝爾曼方程
4.最優策略
案例：構(gou)建機器(qi)人找金幣和迷宮的環境

第三課基于模型的動態規劃方法
1.動態規劃概念介紹
2.策略評估過程介紹
3.策略改進方法介紹
4.策略迭代和值迭代
案例：實現基于模型的強化(hua)學習算法

第四課蒙特卡羅方法
1.蒙特卡羅策略評估
2.蒙特卡羅策略改進
3.基于蒙特卡羅的強化學習
4.同策略和異策略
案例(li)：利(li)用(yong)蒙特卡羅方(fang)法實現機器(qi)人(ren)找金幣和迷宮

第五課時序差分方法
1.DP，MC和TD方法比較
2.MC和TD方法偏差與方差平衡
3.同策略TD方法：Sarsa 方法
4.異策略TD方法：Q-learning 方法
案例(li)：Q-learning和Sarsa的實(shi)現

第二天從強化學習到深度強化學習
第一課基于值函數逼近方法（強化學習）
1.維數災難與表格型強化學習
2.值函數的參數化表示
3.值函數的估計過程
4.常用的(de)基函數

第二課基于值函數逼近方法（深度學習與強化學習的結合）
1.簡單提一下深度學習
2.深度學習與強化學習的結合
3.DQN 方法介紹
4.DQN變種：Double DQN, Prioritized Replay, Dueling Network
案例：用DQN玩游戲——flappy bird
第三課策略梯度方法（強化學習）
1.策略梯度方法介紹
2.常見的策略表示
3.常見的減小方差的方法:引入基函數法，修改估計值函數法
案(an)例：利(li)用gym和(he)tensorflow實現小車倒(dao)立(li)擺系統(tong)等(deng)

第四課 Alpha Go（深度學習與強化學習的結合）
1.MCTS
2.策略網絡與價值網絡
3.Alpha Go的完整架構
第五課 GAN（深度學習）
1.VAE與基本GAN
2.DCGAN
3.WGAN
案例：生成手寫數字的GAN

第三天深度強化學習進階
第一課 AC類方法-1
1. PG的問題與AC的思路
2. AC類方法的發展歷程
3. Actor-Critic基本原理
第二課 AC類方法-2
1. DPG方法
2. DDPG方法
3. A3C方法
案例：AC類方法的案例

第三課信賴域系方法-1
1.信賴域系方法背景
2.信賴域系方法發展路線圖
3.TRPO方法
案例：TRPO方(fang)法的案例

第四課信賴域系方法-2
1.PPO方法
2.DPPO方法簡介
3.ACER方法
案例：PPO方法的案例

第五課多Agent強化學習
1.矩陣博弈
2.納什均衡
3.多人隨機博弈學習
4.完全合作、完全競爭與混合任務
5.MADDPG
案例(li)：MADDPG的案例(li)等

強化學習課程

轉載：//bamboo-vinegar.cn/gkk_detail/65029.html

已(yi)開課時間Have start time

上一篇：專業進階深度學習人工智能下一篇：社群新零售培訓

在線報名Online registration

付款信息：
開戶名：上海投智企業管理咨詢有限公司
開戶行：中國銀行股份有限公司上海市長壽支行
帳號：454 665 731 584

国产蜜臀AV在线一区尤物_久久精品国产亚洲av麻豆甜_成人免费午夜无码视频在线播放_狠狠色噜噜狠狠狠888米奇视频

課程描述INTRODUCTION

日程安排SCHEDULE

課程大綱Syllabus

已(yi)開課時間Have start time

在線報名Online registration

預約1小時微咨詢式培訓

其它課程公開培訓班

其它課程內訓