機器之心報道
參與:張倩
歷時兩個多月,本周一,香港中文大學信息工程系助理教授周博磊的中文強化學習課程終于完結了。
B站教學,全中文課程:港中文周博磊強化學習課程完結-1.jpg (229.33 KB, 下載次數: 24)
下載附件
2024-10-27 11:20 上傳
作為全國知名的學習網站,我們經常可以在 B 站上看到國內外名師的講課視頻。但這些視頻一般都是「搬運工」們從油管等渠道搬上來的。
那有沒有哪位大佬親自下場當 up 主呢?香港中文大學的周博磊老師就是其中一位。
周博磊老師博士畢業于麻省理工學院,現任香港中文大學信息工程系助理教授,研究方向主要為機器感知和決策,重點是通過學習可解釋、結構化的表征,使機器能夠在復雜的環境中感知、推理和行動。
今年 3 月份,受疫情影響,宅在家上課的周老師做出了一個決定:把自己每周的《強化學習綱要》課程用中文講一遍,并上傳到 B 站。這一消息吸引了上萬人圍觀。這可能也是全網第一個中文強化學習課程。
在過去的兩個多月里,周老師基本保持著每周一更的頻率,為大家錄制了 10 節課程,共 16 個視頻。主題包括:
概括與基礎
馬爾科夫決策過程
無模型的價值函數估計和控制
價值函數的近似
策略優化基礎
策略優化進階
基于環境模型的 RL 方法
模仿學習
RL 分布式系統
完結篇
B站教學,全中文課程:港中文周博磊強化學習課程完結-2.jpg (327.13 KB, 下載次數: 15)
下載附件
2024-10-27 11:20 上傳
該課程使用的編程語言是 Python,深度學習框架則是 TensorFlow 和 PyTorch(PyTorch 為主)。
在開課之初,周老師曾提醒大家,該課程主要面向大三、大四或研一的學生。參加課程的學生需要具備相關背景知識,包括線性代數、概率論、機器學習(數據挖掘、模式識別、深度學習)等。此外,由于該課程有不少實踐內容,所以參加課程的同學最好有一些編程經驗,會用 Python、PyTorch。
課是有一定難度的,從播放量的變化趨勢也可略知一二。
B站教學,全中文課程:港中文周博磊強化學習課程完結-3.jpg (57.35 KB, 下載次數: 20)
下載附件
2024-10-27 11:20 上傳
但即便如此,還是有同學堅持到了最后,并表示受益匪淺:
B站教學,全中文課程:港中文周博磊強化學習課程完結-4.jpg (125.55 KB, 下載次數: 24)
下載附件
2024-10-27 11:20 上傳
還有同學表示,上完課感覺自己變聰明了:
B站教學,全中文課程:港中文周博磊強化學習課程完結-5.jpg (18.39 KB, 下載次數: 17)
下載附件
2024-10-27 11:20 上傳
除了課程視頻之外,周老師還在 GitHub 上更新了課程的全部代碼,而且每節課后都留有作業。
課程地址:https://space.bilibili.com/511221970
GitHub 鏈接:https://github.com/zhoubolei/introRL
下面讓我們來看一下每節課的具體內容。
9 小時 10 堂課,周老師帶你走近強化學習
第一節課分上下兩節,總共 44 分鐘,主要介紹了課程綱要、強化學習基本概念、序列決策入門、強化學習編程實踐等內容。
B站教學,全中文課程:港中文周博磊強化學習課程完結-6.jpg (124 KB, 下載次數: 16)
下載附件
2024-10-27 11:20 上傳
在第二節課上,周老師用 1 個小時的時間介紹了馬爾科夫決策過程(MDP),包括 1)馬爾科夫鏈(馬爾科夫決策過程的簡化版本)、馬爾科夫獎勵過程;2)馬爾科夫決策過程的策略估計,即當給定一個決策過程之后,如何計算它的價值函數;3)馬爾科夫決策過程的控制,包括策略迭代和價值迭代兩種算法。
B站教學,全中文課程:港中文周博磊強化學習課程完結-7.jpg (96.09 KB, 下載次數: 18)
下載附件
2024-10-27 11:20 上傳
然而,在現實生活中,很多情況下無法獲取準確的 MDP 模型,因此只能借助無模型的方法解決問題,這也是周老師在第三課中講解的主要內容,包括無模型的價值函數估計和控制。
B站教學,全中文課程:港中文周博磊強化學習課程完結-8.jpg (26.55 KB, 下載次數: 14)
下載附件
2024-10-27 11:20 上傳
第四課的主題是價值函數的近似,包括價值函數近似的基本原理、利用價值函數近似進行預測和控制、DQN 在雅達利游戲中的應用等。
B站教學,全中文課程:港中文周博磊強化學習課程完結-9.jpg (153.55 KB, 下載次數: 27)
下載附件
2024-10-27 11:20 上傳
第五課是關于策略優化的基礎知識,包括基于策略的強化學習、蒙特卡羅策略梯度算法、如何減小策略梯度中的方差、Actor-Critic 算法等。
B站教學,全中文課程:港中文周博磊強化學習課程完結-10.jpg (94.41 KB, 下載次數: 23)
下載附件
2024-10-27 11:20 上傳
前五堂課的內容都非常豐富,全部消化已非常不易,但其實這還沒到最難的部分。最難的一課是第六課。
第六課依然是講策略優化,不過難度上了一個臺階。在這堂課中,周老師主要介紹了策略梯度算法的不同變種以及近五年來最新的策略優化過程。其中,后者可以分為兩條主線,涵蓋強化學習中最有名的六種算法:
B站教學,全中文課程:港中文周博磊強化學習課程完結-11.jpg (21.05 KB, 下載次數: 19)
下載附件
2024-10-27 11:20 上傳
由于課程只有 1 個半小時的時間,因此每個部分不可能講得非常詳細,學到這課的同學還需要自己去啃其中涉及的一些論文。
第七課的內容是基于模型的強化學習算法,包括概要、基于模型的價值函數優化、基于模型的策略函數優化、基于模型的算法在機器人中的應用等內容。
B站教學,全中文課程:港中文周博磊強化學習課程完結-12.jpg (149.54 KB, 下載次數: 27)
下載附件
2024-10-27 11:20 上傳
第八課的內容是模仿學習,包括 1)概要;2)模仿學習的兩種常見算法——行為克隆和 DAGGER;3)逆強化學習和基于生成對抗訓練的模仿學習;4)如何改進模型學習的模型;5)如何結合模型學習與強化學習以及 6)模仿學習在計算機視覺等任務中的應用。
B站教學,全中文課程:港中文周博磊強化學習課程完結-13.jpg (99.04 KB, 下載次數: 23)
下載附件
2024-10-27 11:20 上傳
第九課是強化學習系統的分布式設計,具體內容包括分布式機器學習的特點、分布式系統到強化學習系統的演變以及 AlphaGo、OpenAI Five、AlphaStar 等知名強化學習 AI 背后的系統設計。
B站教學,全中文課程:港中文周博磊強化學習課程完結-14.jpg (175.38 KB, 下載次數: 16)
下載附件
2024-10-27 11:20 上傳
最后一節課是復習課,把前面九節課的內容進行了梳理。
除此之外,周老師還推薦了一些強化學習方面的閱讀材料,包括 OpenAI 的深度強化學習教程 Spinning-Up 和 John Schulman 的《Nuts and Bolts of Deep RL experimentation》課程。前者總結了現有的主流強化學習算法,既有代碼也有講解;后者是 John Schulman 的強化學習研究歷程與經驗。這些可以和本課程的推薦教材——Sutton 和 Barton 合作撰寫的《強化學習》一起閱讀。
B站教學,全中文課程:港中文周博磊強化學習課程完結-15.jpg (134.85 KB, 下載次數: 19)
下載附件
2024-10-27 11:20 上傳
至此,《強化學習綱要》課程告一段落。不過,周老師表示,他可能會在暑假錄一些「番外」,聊一聊自己感興趣的生成建模、無監督表征學習等內容。此外,關于機器感知與決策的內容也在籌劃,有望在暑假與大家見面。
B站教學,全中文課程:港中文周博磊強化學習課程完結-16.jpg (120.56 KB, 下載次數: 15)
下載附件
2024-10-27 11:20 上傳
|
|