◆深度強化學習(Deep Reinforcement Learning)簡介 ˙人工智慧環境(Environment)與智慧代理人(Agent) ˙策略與規劃(Policy and Planning) ˙價值函數(Value Function) ˙運作模型(Model) ˙酬勞與懲罰(Reward) ˙最優價值函數(Optimal Value Function) ˙馬可夫決策問題(MDP)
◆圖表化及逼近式 (Tabular and Approximation)解決方案 ˙有限馬可夫決策處理(FMDP) ˙動態規劃(Dynamic Programming) ˙蒙地卡羅方法(Monte Carlo Method) ˙時間差分學習(Time-Difference Learning) ˙Q學習(Q-Learning) ˙策略梯度法(Policy Gradient Method) ◆類神經深度強化學習 ˙深度Q學習網路(Deep Q-Learning Network) ˙TensorFlow DQN ˙OpenAI Gym ˙Actor Critic ˙Deep Deterministic Policy Gradients(DDPG) ˙Asynchronous Advantage Actor-Critic (A3C) ˙Distributed Proximal Policy Optimization (DPPO)
◆人工智慧深度強化學習個案研究 ˙AlphaGo設計理念與方法 ˙問答系統強化學習 ˙汽車避撞系統模擬 ˙自駕車強化學習 ˙Q-learning Gridworld Player ˙Atari Ping Pong Player 詳細課程內容請參考以下網址:http://www.iiiedu.org.tw/ites/REF.htm
- 新聞稿有效日期,至2019/07/29為止
聯絡人 :張先生 聯絡電話:(02)6631-6539 電子郵件:alanchang@iii.org.tw
上一篇:【資策會】人工智慧無人機設計與應用 (台北9/4)
下一篇:CEVA推出將物聯網設備連接到阿里雲的 全整合Wi-Fi解決方案
|
■ 訂閱制付費會員經營之道:我積攢一生的工作經驗 - 2020/12/06 ■ 共享經濟:以人民的名義爭奪流量入口 - 2017/06/18 ■ 影音網站的未來(三) PGC孵化IP,直播更接近長尾 - 2016/10/16 ■ 影音網站的未來(二)短影音適合往社交和工具發展 - 2016/10/09 ■ 影音網站的未來(一)長尾效應與頭部效應無法兼顧 - 2016/10/02 ■ 大部分O2O 模式違反網際網路經濟特性 - 2015/02/08 ■ 融資是怎麼回事(下)什麼人能拿到投資 - 2015/01/04 ■ 融資是怎麼回事(中)讀懂投資人的唇語 - 2014/12/21 ■ 融資是怎麼回事(上)融資是迭代的過程 - 2014/12/14
|