萬芳奕


摘要:本文以人工智能系統阿爾法狗為例,對深度學習和強化學習進行概述和初步的探究,最后提出了對當今機器學習的一種看法。
關鍵詞:阿爾法狗;人工智能技術;卷積神經網絡
中圖分類號:TP181 文獻標識碼:A 文章編號:1007-9416(2017)11-0221-02
1 阿爾法狗與機器學習
2017年五月,世界第一圍棋棋手柯潔在我國烏鎮與阿爾法狗展開較量,而最后的結果是柯潔連敗三局,人工智能阿爾法狗取得了這場比賽的勝利。而此時人們也不得不疑惑,阿爾法狗到底是在一個什么樣的系統下才能擁有如此強大的能力?實際上,阿爾法狗的勝利是“深度學習+強化學習”的一個重要的案例。
2 深度學習
2.1 卷積神經網絡
最近幾年以來,卷積神經網絡越來越成為眾多學者的研究熱點。在阿爾法狗中就是利用的CNN+蒙特卡洛搜索樹算法,而這一算法就是卷積神經網絡模型的一個重要例證[1]。綜合而言,卷積神經網絡結構圖如圖1所示。
由圖1我們可以得到,卷積神經網絡的輸入是一組二維圖,然后系統將輸入量送入到卷基層進行特征提取,最后進行輸出,根據卷積特征提取過后得到的信息與預先得到的信息進行對比,完成分類。卷基層內主要需要完成三種運算,分別為卷積、非線性激活函數和最大值池化。根據所需要完成的任務的不同,卷積神經網絡結構中可以有多個卷積層,而每個卷基層都需要完成這三種運算[2]。
2.2 基于深度學習的優化方法
深度學習基本都是基于神經網絡來完成的,而隨著神經網絡由最開始的三層神經網絡漸漸發展到后來的多層神經網絡,其內部節點的個數會越來越多,也就需要更多的數據來對該智能系統進行訓練,數據集逐漸變得龐大。在這種情況下,如果只依靠傳統的深度學習模型往往會無法完成想要實現的工作,往往需要很長的時間才得到訓練后的收斂,無法滿足大規模神經網絡的需求。針對于上述問題,本文提出兩種優化方法[3]。
(1)數據并行優化方法。當系統需要大量訓練的時候,我們可以選取數據并行的手段使得模型的訓練速度加大,數據并行就是要對需要訓練的數據分成好幾個部分,同時采取多個深度學習模型來進行工作,如此一來,每一個部分的數據都同時完成訓練過程,加大了訓練效率。根據上述原理,數據并行優化訓練方法的基本架構如圖2所示。
數據的并行訓練是將整體的數據分成好幾個部分來進行,因每一組數據不一樣,因此訓練模型的參數也各不相同。每個訓練模型都不與另外的訓練結果相互作用,因此,各個部分之間的訓練結果往往會無法進行交換。為了解決這一問題,我們需要設定一個更新公式,該公式所起到的作用是將所有計算每個訓練模型之間的梯度,并將所得的結果統計到某一統一的服務器上面,然后由服務器利用公式對參數進行更新。然而,實際上這個公式在設定的時候并不容易,實際操作中各個訓練模型的結果也并不如想象中的盡人意。因此,如何將數據集進行劃分以及劃分后如何整合成為了限制數據并行優化方法最大的限制。
(2)模型并行優化方法。除了上文所提到的數據并行的方法來解決大數據集,提高訓練速度的方法之外,還與一種手段就是對模型進行劃分,較大的模型經過劃分之后成多個分片,然后同時進行訓練。每一個訓練單元之間能夠進行合作,最后完成整個模型的訓練任務。
3 強化學習
強化學習的名稱原本是從心理學中的命名而來,強化學習的基本模式就是“交互-試錯”,意思就是智能系統不斷與外界進行交互,然后對每一次的交互結果進行處理,最后智能系統得到有效策略。強化學習的過程就類似于人腦學習的過程。隨著人工智能技術的不斷進步,強化學習已經包括多方面的內容,其各種算法被更加廣泛的利用。
常見的強化學習算法有基于值函數的學習方法和基于策略搜索的強化學習算法,其中,前者往往在尋找確定性最優解中利用廣泛,而阿爾法狗最優策略卻是根據棋盤局勢的不同實時改變著的,其每一次的最優結果往往是隨即的,因此基于值函數的強化學習算法無法滿足這一要求。因此,在阿爾法狗的學習算法中采用的是第二種強化學習算法,即基于策略搜索的強化學習算法。該算法的主要思想是將每一個策略以參數的結果表現出來,在學習的過程中,對參數不斷進行的 更改,從而最優值。根據基于策略搜索的強化學習算法的應用對象不同,還可以優化為基于梯度的強化學習算法。
4 結語
隨著人工智能的不斷發展我們似乎可以明白,阿爾法狗與人類對弈的勝利并不是偶然,而是一種必然趨勢。
參考文獻
[1]王煒.大數據環境下的機器學習算法[J].信息系統工程,2016,(7):133.
[2]何清,李寧,羅文娟,史忠植.大數據下的機器學習算法綜述[J].模式識別與人工智能,2014,(4):327-336.
[3]楊釗,陶大鵬,張樹業,等.大數據下的基于深度神經網的相似漢字識別[J].通信學報,2014,(9):184-189.
Abstract:This paper takes artificial intelligence system, Alfa dog as an example, summarizes and explores the deep learning and reinforcement learning, and finally puts forward a view of machine learning nowadays.
Key Words:Alfa dog; artificial intelligence technology; convolution neural networkendprint