王永慶 劉華
摘 要:近年來機器學習方法在諸多領域得到成功的應用與發展,已成為計算機科學的研究熱點之一。本文介紹了機器學習的定義、發展歷史與學習策略分類,并對目前存在的問題與挑戰進行了分析與展望。
關鍵詞:機器學習;計算機科學;學習機理;策略研究
隨著計算機技術的飛速發展,人們嘗試著使計算機具有和我們一樣或類似的學習能力,從而產生了一個新的研究學科-機器學習。總體而言,機器學習是指令計算機通過對目標的識別,利用人類提供的現有知識來獲取新知識和新技能,不斷改善性能,實現自我完善。
1 機器學習發展史
統計學習理論創始人之一的Vapnik將機器學習歸結為如下四個階段。
1.1 學習機器的產生
第一個學習機器的模型是F.Rosenblatt在1962年提出的感知器。它借鑒了神經生理學領域中感知器的思想,將其模型表示為一個計算程序,并通過簡單的實驗說明了這個模型的結果可以進行推廣和泛化。感知器通過給定的樣本構造一條判斷準則來區分不同類別的數據,因此可以用來解決模式識別問題。
1.2 學習理論基礎的創立
1968年,Vapnik和Chervonenkis提出VC維和VC熵來解決模式識別問題。利用這些概念學者發現了大數定律和關于收斂速率的非漸近界。1989年,Vapnik和Chervonenkis提出的經驗風險最小化原則、正則化理論、解決密度估計問題的非參數方法,以及算法復雜度思想,都對學習理論的發展產生了深遠的影響。
1.3 神經網絡的產生
1986年,LeCun和Rumelhart各自獨立地提出了后向傳播方法。該方法采用連續的Sigmoid逼近函數代替了感知器神經元中的不連續符號函數,使人們可用任何基于梯度的方法來逼近預期函數。它的出現標志著學習機器歷史進入了一個新紀元。
1.4 統計學習理論的創立
為了根本解決傳統統計學理論中過學習等弊端,Vapnik于20世紀60-70年代創立了統計學習理論。與傳統統計學相比,它是一種專門研究有限樣本下機器學習規律的理論,不僅考慮了對漸近性能的要求,并且追求在有限信息下獲得最優結果,在理論研究和實際應用中都取得了良好效果。
2 機器學習策略分類
在眾多機器學習策略中,可從不同角度,根據不同原則對其進行分類。本文按照分類原則提出的先后順序以及所用推理策略的繁簡程度將其分為以下兩大類。
2.1 傳統策略
⑴機械式學習。該方法是一種最簡單、原始,也最基本的學習策略。它通過記憶和評價外部環境所提供的信息達到學習的目的。學習系統要做的工作就是把經過評價所獲取的知識存儲到知識庫中,求解問題時就從知識庫中檢索出相應的知識直接用來求解問題。
⑵指導式學習。該方法通過由外部環境向系統提供一般性的指示或建議,把它們具體地轉換為細節知識并送入知識庫。在學習過程中要反復對形成的知識進行評價,使系統的知識庫不斷完善。
⑶歸納學習。該方法應用歸納推理進行學習。歸納推理指從足夠多的事例中歸納出一般性的知識,是一種從個別到一般的推理。常用的方法有枚舉歸納、聯想歸納、類比歸納、逆推理歸納和消除歸納等。
⑷類比學習。類比是人類認識世界的一種重要方法,也是誘導人們學習新事物、進行創造性思維的重要手段。類比學習就是通過對相似事物進行比較所進行的一種學習。
⑸基于解釋的學習。該方法通過運用相關領域知識,對當前提供的實例進行分析,從而構造解釋并產生相應知識。
2.2 現代策略
⑴基于神經網絡的學習。神經網絡由神經元單元及其間帶權重的連接組成,每個單元的狀態由與其相連接其他單元的輸入共同決定。該方法使用樣本來訓練網絡,產生網絡的內部表示,并用來識別新樣本。
⑵基于統計學習理論的學習。Vapnik創立的統計學習理論針對有限樣本統計問題建立了一套新的理論體系,不僅考慮了對漸近性能的要求,并且追求在有限的信息條件下獲得最優的結果。其典型代表SVM,具有許多傳統統計學方法不具備的優點。
⑶強化學習。該理論是在上世紀80年代,基于試錯方法、動態規劃和瞬時誤差方法形成的。
⑷集成學習。該方法集成若干單分類器的分類結果來綜合決定最終分類,可取得比單分類器更好的性能。其主要方法有Bagging、Boosting、Stacking、樸素貝葉斯集成、決策樹集成、人工神經網絡集成、K-近鄰集成、在線集成等等。
⑸主動學習。該方法模擬人的學習過程,選擇標記部分樣例加入訓練集,迭代提高分類器的泛化性能。
[參考文獻]
[1]閆友彪,陳元琰.機器學習的主要策略綜述[J].計算機應用研究,21(7):4-13,2004.
[2]王文.淺析機器學習的研究與應用[J].計算機與信息技術,Z2:7-9,2010.