深度強化學習核心技術開發與應用研修班7月
時間:2022-07-30 09:00 至 2022-08-01 18:00
地點:線上活動
- 參會報名
- 會議通知
- 會議日程
- 會議嘉賓
- 參會指南
- 邀請函下載
深度強化學習核心技術開發與應用研修班7月 已過期會議時間:2022-07-30 09:00至 2022-08-01 18:00結束 會議地點: 線上活動 詳細地址會前通知 會議規模:60人 主辦單位: 中國人工智能培訓網 北京龍騰亞太教育咨詢有限公司
|
會議通知
會議內容 主辦方介紹
深度強化學習核心技術開發與應用研修班7月宣傳圖
關于舉辦“深度強化學習核心技術開發與應用研修班”的通知
各企、事業單位:
隨著科技的快速發展,人工智能儼然成了當今社會的關注焦點。而在人工智能的發展上,深度學習、強化學習、遷移學習等成為了科學界、工業界研究和應用的熱點。在實際研究和應用過程當中,研究人員逐漸發現了深度學習單獨應用的缺點,如沒有決策能力,不可推理等。而深度強化學習,作為一種嶄新的機器學習方法,同時具有感知能力和決策能力,它是深度學習與強化學習的結合,二者的結合涵蓋眾多算法、規則、框架,并廣泛應用于機器人、無人機、無人車、無人艇、兵棋推演、自動駕駛、能源分配、編隊控制、航跡規劃、路由規劃等眾多領域,具有極高的研究與應用價值。
為積極響應科研及工作人員需求,根據國務院《國家中長期人才發展規劃綱要(2010-2020年)》和人社部《專業技術人才知識更新工程實施方案(2010-2020年)》文件精神,中國管理科學研究院現代教育研究所 聯合北京龍騰亞太教育咨詢有限公司特舉辦“深度強化學習核心技術開發與應用研修班”。本次培訓采用全實戰培訓模式。
主辦單位:中國管理科學研究院現代教育研究所
承辦單位:北京龍騰亞太教育咨詢有限公司、北京新鼎聚成文化傳媒有限公司
注:發票由具體承辦單位開具。
一、培訓專家:
中國科學院計算技術研究所、清華大學、北京理工大學等科研機構和大學的高級專家,擁有豐富的科研及工程技術經驗,長期從事人工智能、機器學習、深度學習、大數據分析等領域的教學與研究工作。
二、時間安排: ????????????????2022年7月29日-8月01日 ????線上直播
? ? ? ? ? ? ? ? ? ? ? ? ? ?(29日下發上課所需材料,7月30日-8月1日全天上課)
中國管理科學研究院現代教育研究所 ?????????????北京龍騰亞太教育咨詢有限公司
??????二〇二二年五月二十八日??????????????????????二〇二二年五月二十八日
三、參會對象:
各省市、自治區從事人工智能、機器學習、計算機視覺、自然語言處理、無人機、無人艇、無人車、機器人、智能體、多智能體、兵棋推演、自動駕駛、能源分配、編隊控制、航跡規劃、路由規劃等領域相關的企事業單位技術骨干、科研院所研究人員和大專院校相關專業教學人員及在校研究生等相關人員,以及強化學習、人工智能廣大愛好者。
四、培訓目標:
1、了解強化學習發展。
2、掌握單智能體深度強化學習。
3、掌握多智能體深度強化學習。
4、掌握多任務深度強化學習。
5、掌握強化學習應用領域Gym Retro游戲平臺、機器人控制、計算機視覺、自然語言處理。
6、實現Gym、Ray仿真環境。
7、實際體驗Q Learning實驗、DQN實驗、DDPG實驗。
五、費用標準:
1、4580元/人(含報名費、培訓費、資料費、證書費)。
2、培訓費由組織培訓班的施教機構負責收取并提供培訓發票。
3、報名成功后于一周內辦理匯款手續。
4、報名5人以上可享受9折優惠。
5、參加線上培訓學員可享受視頻錄播回放權益,及本人再次免費參加線下學習權益。
六、頒發證書:
參加相關培訓并通過考核的學員,由中國管理科學研究院現代教育研究所頒發《深度強化學習開發與應用工程師》(高級)崗位認證證書,可通過官方網站查詢 ,該證書可作為有關單位專業技術人員能力評價、考核和任職的重要依據。
注:請學員將電子版彩照(大于20KB,紅藍底皆可)、身份證復印件和學歷證明復印件?
七、注意事項
1、指定報名郵箱?
2、報名成功后,會務組在上課前兩天發放上課所需所有材料。
3、學員需自備電腦一臺,配置win10、64位系統、8G內存、100G硬盤。
附件1:具體課程安排
時間安排 | 大 ?綱 | 具體內容 | 實操案例 | |
三天 | 關鍵點 | 1.強化學習的發展歷程 2.馬爾可夫決策過程 3.動態規劃 4.無模型預測學習 5.無模型控制學習 6.價值函數逼近 7.策略梯度方法 8.深度強化學習-DQN算法系列 9.深度策略梯度-DDPG,PPO等 | ||
第一天 9:00-12:00 14:00-17:00 | 一、強化學習概述 | 1.強化學習介紹???????2.強化學習與其它機器學習的不同 3.強化學習發展歷史???4.強化學習典型應用 5.強化學習基本元素???6.強化學習算法分類 | ||
二、馬爾科夫決策過程 | 1.馬爾可夫性?????????2.馬爾可夫決策過程 3.策略與價值?????????4.最優化原理 5.MDPs擴展 | |||
三、動態規劃 | 1.動態規劃???????2.價值迭代 3.策略迭代???????4.迭代策略評估 5.廣義策略迭代???6.維數災 | 1.python環境下簡單掃地機器人環境 2.價值迭代python實現 3.策略迭代python實現 4.迭代策略評估python實現 | ||
四、無模型預測學習 | 1.蒙特卡洛方法???2.時間差分學習 3.n-步回報???????4.TD(lambda) 5.資格跡 | 1.蒙特卡洛方法python實現 2.時間差分方法python實現 | ||
第二天 9:00-12:00 14:00-17:00 | 五、無模型控制學習 | 1.蒙特卡洛控制???2.Sarsa 3.重要性采樣?????4.Q-學習 4.Double Q學習???5.探索與利用 | 1. Sarsa方法python實現 2. Q學習方法python實現 3. Sarsa(lambda)方法python實現 | |
六、價值函數逼近 | 1.函數逼近器?????2.線性函數逼近 3.常見的特征表示方法 4.價值迭代+離散化方法 5.Fitted Q Iteration 6.策略迭代+最小二乘 7.預測學習+隨機梯度下降法 8.控制學習+隨機梯度下降法 | 1. 離散化Q迭代方法python實現 2. LSPI方法python實現 | ||
七、策略梯度方法 | 1.基于策略的強化學習 2.有限差分策略梯度 3.解析法策略梯度 4.REINFORCE算法 5.Actor-Critic 6.策略梯度引入基準 7.自然梯度 8.確定型Actor-Critic | 1. 策略迭代方法python實現 2. actor-critic方法python實現 | ||
第三天 9:00-12:00 14:00-17:00 | 八、深度強化學習 | 1.Deep?Q learning(DQN) 2.Double DQN 3.Dueling DQN 4.Prioritized Experience Replay 5.A3C/A2C 6.DDPG 7.PPO 8.SAC | 1.深度強化學習訓練場-OpenAI Gym?安裝與使用 2.Pytorch安裝與使用 3.自動駕駛賽車任務 4.月球飛船降落任務 | |
實操解析與訓練一 | 實驗:倒立擺和冰壺控制實踐 1.環境編寫 ???2.算法設計 ???3.實驗結果 高頻問題: 如何將一個控制問題設計成馬爾可夫決策問題并使用強化學習算法進行訓練 關鍵點: 1.基于模型的離線強化學習方法 ???2.基于數據的在線強化學習方法 | |||
實操解析與訓練二 | 實驗:OpenAI Gym實踐 1.Gym安裝 ??2.Gym使用 ??3.強化學習 高頻問題: 1.如何基于Gym實現強化學習訓練與測試 關鍵點: 1.掌握馬爾可夫決策過程 ??????2.低維輸入的強化學習方法 | |||
實操解析與訓練三 | 實驗:月球飛船降落任務 1.DQN/Double?DQN/Dueling?DQN????????2.PER 高頻問題: 1.深度強化學習網絡訓練穩定性 ??2.探索與利用 關鍵點: 1.經驗回放技術的實現 ????2.目標網絡更新 | |||
實操解析與訓練四 | 實驗:自動駕駛賽車任務 1.連續控制任務 ??2.策略梯度方法DDPG/PPO 高頻問題: 1.適用于高維輸入的連續控制任務的深度強化學習方法 關鍵點: 1.掌握DDPG和PPO具體編程實現 ??? 2.根據實際需求,選用合理的深度強化學習方法 |
查看更多
會議日程
會議嘉賓
參會指南
會議門票
票種名稱 | 價格 | 原價 | 票價說明 |
早鳥價 | ¥4580 | ¥4580 | 講課費,資料費,證書費,平臺費,售后服務費 |
查看更多
溫馨提示
酒店與住宿:
為防止極端情況下活動延期或取消,建議“異地客戶”與活動家客服確認參會信息后,再安排出行與住宿。
退款規則:
活動各項資源需提前采購,購票后不支持退款,可以換人參加。
報名平臺,您可在線購票
會議支持:
-
會員折扣
該會議支持會員折扣
具體折扣標準請參見plus會員頁面 -
會員返積分
每消費1元累積1個會員積分。
僅PC站支持。 -
會員積分抵現
根據會員等級的不同,每抵用1元可使用的積分也不一樣,具體可參見PLUS會員頁面。 僅PC站支持。
部分參會單位
郵件提醒通知