首頁 產品介紹 課程介紹 專業教育訓練 【課程五】人工智慧深度強化學習 上機實作課程
以類別搜尋
以關鍵字搜尋
專業教育訓練
產品名稱
【課程五】人工智慧深度強化學習 上機實作課程
產品型號
T005

人類的行為總是在盤算,找到最佳的決策後就開始行動,但是每當遇到困難挫折時,就會修正自己的決策,並且之後再遇到類似的狀況時就會記取教訓,避免重蹈覆轍,就這樣從零開始學起直到擁有豐富的經驗後可順利的達到目標。


強化學習(Reinforcement Learning)的技術不但涵蓋以上人類的決策要素,並且也實現了人類學習的摸索過程;其中包括最佳策略(Policy)的衡量、利弊得失(Reward)的分析、記取教訓、累積經驗、沙盤推演等行為要素。因此強化學習的技術可以讓我們所設計的產品更具有人工智慧的特質。近年來,強化學習結合使用深度學習(Deep Learning)來加強最佳決策的推演,使得深度強化學習(Deep Reinforcement Learning)成為目前開發人工智慧產品不可或缺的關鍵技術。


本課程細說強化學習求解最佳策略(Policy)及酬勞(Reward)的方法,結合 TensorFlow2 及 Keras-rl2 等深度學習開發平台,以 AlphaGo 設計理念、汽車避撞系統、自駕車強化學習、Game Player 等實例說明其原理及應用方法,使學員能夠快速上手深度強化學習的應用。


※上課時間 :歡迎機關團體或個人隨時來電洽詢。


基礎 :具備有 Python 程式語言及 TensorFlow/Keras 的設計基礎者均可參加此課程。


  

【課程內容表】

 

授課講師
兌全有限公司 專任講師
第一天  議 程 內     容
8:30~9:00 報     到
9:00~10:50
1. 人工智慧環境 (Environment) 與 智慧代理人 (Agent)
2. 策略 與 規劃 (Policy and Planning)
3. 價值函數 (Value Function) 與 運作模型 (Model)
10:50~11:00 休息時間
11:00~12:00
4. 酬勞與懲罰 (Reward) 與 最優價值函數 (Optimal Value Function)
12:00~13:00 午餐時間
13:00~14:20
5. 馬可夫決策問題(MDP) 與 有限馬可夫決策處理 (FMDP)
6. 動態規劃 (Dynamic Programming) 與 蒙地卡羅方法
14:20~14:30 休息時間
14:30~16:00
7. 時間差分學習 (Time-Difference Learning) 與 Q學習 (Q-Learning)
16:00~16:10 休息時間
16:10~17:00
8. 策略梯度法 (Policy Gradient Method)
  賦    歸

 

 

授課講師
兌全有限公司 專任講師
第二天  議 程內     容
8:30~9:00報     到
9:00~10:50
1.深度Q學習網路(Deep Q-Learning Network)
2.TensorFlow2 DQN
3.OpenAI Gym
4.Actor Critic
10:50~11:00休息時間
11:00~12:005.Deep Deterministic Policy Gradients(DDPG)
12:00~13:00午餐時間
13:00~14:206. Asynchronous Advantage Actor-Critic (A3C)
7. Distributed Proximal Policy Optimization (DPPO)
8. 蒙地卡羅方法實例追蹤
9. AlphaGo 設計理念與方法
14:20~14:30休息時間
14:30~16:0010. TensorFlow2 OpenAI Gym Breakout 實例追蹤
11. 整合深度強化學習至人工智慧應用系統
16:00~16:10休息時間
16:10~17:0012. Keras-rl2 DQN 實例追蹤
13. Keras-rl2 OpenAI Gym 實例追蹤
 賦    歸

 

【資訊內容】

 

 




  

兌全有限公司
電話:(03)301-9583  傳真:(02)301-9045
地址:33046桃園市桃園區大興西路二段67號4樓之1
E-mail :sales@gpu123.com   
    

 

Designed by ezb2b2c