北京市延慶區第一中學 李子韓
總所周知的,機器學習主要有監督學習、非監督學習、半監督學習以及增強學習四類。一般具有規則性的行為,我們可以通過監督學習和非監督學習,使智能體習得并掌握這些行為。然而對于一些序列決策或者控制問題,就需要用到增強學。增強學習,主要關注的是智能體和環境之間的交互問題,智能體通過增強學習,可以在當前的狀態下挑選出一個當前回報最高的決策,通過執行當前挑選的最優決策,達到下一個狀態,如此往復,通過執行一系列的決策,從而獲得最終最優的累積回報。
例如,為了指導小狗學會一項新技能這一任務,我們不能告訴小狗它應該去做什么,但是我們可以在小狗做出動作后,判讀動作是否正確,如果動作正確,則給予獎勵;如果動作錯誤,則給予懲罰。經過一系列類似的訓練之后,小狗就可以學習到它做出哪些動作后會得到獎勵,做出哪些動作后會得到懲罰。類似地,我們同樣可以在控制問題中,使用相同的方法訓練智能體學習如何做出決策,獲得最大的累積回報,從而達到決策優化的目的。再以曾經風靡全球的游戲《神廟逃亡》為例。我們的目的是讓智能體學會這款游戲的玩法,但因為游戲的路線是隨機的,所以如果我們直接給其輸入某一固定的路線,是達不到令其學會的這一效果的。此時應用到增強學習,訓練智能體學習如何作出決策,獲得最大的累計回報,即檢測到某一的障礙,智能體會作出選擇,如果在操作后游戲人物死亡,則否定上一步操作;如果游戲繼續,則記錄此操作,并于下次檢測到同樣障礙時作出相同的操作。經過多次否定和記錄,最終智能體可以學會這款游戲的玩法。

圖1 《神廟逃亡》游戲操作界面
近些年來,增強學習的研究取得了豐碩的成果,對增強學習的研究主要集中在增強學習的理論、增強學習的算法以及增強學習的應用這三個方面[1]。具體的介紹如下:(1)增強學習理論:時序差分學習的收斂性、表格型強化學習的收斂性、強化學習的泛化方法。研究的主要內容是算法的收斂性等基礎理論,比如:時序差分學習的收斂性,表格型增強學習的收斂性等等。(2)增強學習算法:增強學習可以分為非聯想增強學習和聯想增強學習。比較經典的算法有:折扣型回報指標強化學習算法、Q-學習算法、Sarsa學習算法等等。(3)增強學習應用:增強學習是一種不依賴于環境模型和先驗知識的機器學習方法,通過試錯和延時回報機制,結合自適應動態規劃方法,能夠不斷優化控制策略,為系統自適應外界環境變化提供了可行方案。通過將系統建模成馬氏決策過程,在自動控制領域,增強學習方法已成功地實現了單個機器人的優化控制[2]、多機器人系統并行控制等等[3];如在博弈決策領域,人們利用增強學習方法,已經成功了開發出阿爾法狗——人工智能圍棋程序以及星際爭霸計算機模擬程序等等,此外增強學習方法在比如自動直升機、手機網絡路由、市場決策、工業控制、高效網頁索引、優化和調度等領域都取得了巨大的成功。
首先,基于增強學習問題建立如下模型(為了便于問題的簡化,我們這里建立的環境和智能體的模型都是具有隨機、有限狀態性質的模型)。如圖2所示。

圖2 簡單的增強學習模型
馬爾可夫動態過程可以進一步表示如下:

上述流程圖表示智能體在狀態s0下選擇執行某個動作a0,智能體按照概率Ps0a0隨機轉移到下一個s1狀態,然后再執行一個動作a1,智能體按照概率值Ps1a1轉移到下一個s2狀態,如此往復地進行動作執行和狀態轉移這兩個過程,直達到達最終的終止狀態或者到達最大的狀態轉移步數。
智能體的目標是學習找到一個馬爾可夫策略,即一個從狀態空間到動作空間的映射關系(,表示在當前狀態s下,智能體會根據策略π選擇執行動作a),從而最大化折扣回報加權和的期望。在馬爾科夫決策過程中,如果智能體的起始狀態記為s0,此時智能體根據策略π選擇執行下一個動作a0,執行后智能體的狀態轉移到s1,然后智能體繼續根據策略π選擇執行下一個動作a1,執行后智能體的狀態轉移到s2,按照這種方式執行下去,我們可以得到從起始狀態s開始,所有過程中回報函數的期望和:

我們把(1)式中定義的期望函數Vπ(s),稱為在起始狀態s下,在給定的策略π下的價值函數(value function)。與價值函數非常類似的另外一個函數便是Q函數(Q-function),給定策略π,它的Q函數定義為:從一個給定的起始狀態s開始,首先采取一個指定的動作a,然后根據策略π采取后續動作得到的所有回報函數的期望和:

從遞推的角度來看,我們可以進一步把上述(1)式子寫成:

因此,上述找最優馬爾可夫策略π的問題可以形式化為求解下述問題——求解最大化V*(s):

同樣地,我們可以把Q函數寫成上面的表達形式:

同樣,我們定義最優的Q函數如下:

通過求解上述式子(6),我們可以得到最優的決策策略π*和最大的累積回報值。
通過本文的介紹,我們大致了解了增強學習的基本概念、增強學習適用于解決哪些問題,增強學習的研究領域及主要的應用領域,最后我們通過建立并且簡單地推導增強學習中最簡單的數學模型——隱馬爾科夫模型,加深了對增強學習模型的理解,即增強學習是通過不斷地試錯,學習到一組最優的決策策略,從而獲得最終最大的累積回報的學習過程。
增強學習在許多應用領域都取得了巨大的進展,我們有理由相信,增強學習在今后的發展中,將會進一步推動人工智能領域的發展,給我們的生產生活帶來極大的便利。
[1]陳學松,楊宜民. 強化學習研究綜述[J].計算機應用研究,2010,27(8):2834-2838.
[2]吳軍,徐昕,王健等.面向多機器人系統的增強學習研究進展綜述[J].控制與決策,2011,26(11):1601-1610.
[3]秦志斌,錢徽,朱淼良.自主移動機器人混合式體系結構的一種Multi-agent實現方法[J].機器人,2006,28(5):478-482.