邵文澤 劉媛媛 許艷麗 陳龍 陳杰
摘要:在新一輪人工智能大潮中,機器學習擔當著人工智能核心算法引擎的作用。文章介紹了適于中高年級本科生吸收消化的三大主流機器學習思想及其代表性方法,旨在為學生后續進行擴展性和創新性的機器學習方法學習與研究打下良好基礎。
關鍵詞:連接主義;統計學習;符號學習;人工智能
中圖分類號:G642.0? ? ?文獻標志碼:A? ? ?文章編號:1674-9324(2020)10-0312-02
在當下算法、計算、場景驅動的新一輪人工智能大潮中,機器學習這門學科已當仁不讓地成為人工智能算法驅動力的核心引擎。人工智能歷經60年的坎坷發展歷史,很大程度上也正是機器學習所經歷的風雨洗禮。為此,本文梳理介紹了適于中高年級本科生吸收消化的三大主流機器學習思想及其代表性方法,從而為學生進行擴展性和創新性的機器學習方法學習與研究打下良好基礎。
一、符號機器學習
在20世紀80年代,“樣本集學習”的第一大主流就是符號機器學習,代表性工作包括決策樹學習和基于邏輯的學習。決策樹是一種樹型結構,其中每個內部節結點表示在一個屬性上的測試,每一個分支代表一個測試輸出,每個葉結點代表一種類別。決策樹學習算法主要由三部分構成:一是特征選擇;二是決策樹生成;三是決策樹剪枝。根據不同的目標函數,決策樹生成代表性方法主要包括以下三種算法:Quinlan的ID3(1979,1986)、Breiman等人的CART(1984)以及Quinlan的C4.5(1993)。主要區別在于選擇的目標函數不同。簡單地說,決策樹學習具有以下優點:一是決策樹易于理解和解釋;二是可同時處理標稱型和數值型數據;三是比較適合處理有缺失屬性的樣本;四是能處理不相關的特征;五是測試階段效率較高。而決策樹學習的缺點也有幾點:一是容易過擬合,基于集成學習的隨機森林正是減少這種過擬合的一劑良藥;二是容易忽略屬性的相互關聯;三是對于各個類別樣本數量不一致的數據。基于邏輯的學習以規則學習(rule learning)為基礎,代表性工作是歸納邏輯程序設計(Inductive Logic Programming)。ILP在一階規則學習中引入了函數和邏輯表達式嵌套。一方面,機器學習系統具備了更為強大的表達能力;另一方面,ILP可看作用機器學習技術解決基于背景知識的邏輯程序歸納。因此,ILP不僅可以利用領域知識輔助學習,還可通過學習對領域知識進行精華和增強。然而,由于ILP的表示能力太強,直接導致學習過程面臨的假設空間太大、復雜度極高,因此在20世紀90年代中期后這方面的研究相對陷入低潮。
二、統計機器學習
統計學習在20世紀90年代中期逐漸成為機器學習研究的主流,代表性方法是1995年Cortes和Vapnik提出的SVM。事實上,Vapnik在20世紀60年代就已提出“支持向量”的概念,SVM只是從這個統計理論派生的自然結果。根據統計學中的大數定律,對于一個學習模型f,當樣本點的個數趨于無窮大時,經驗風險將依概率收斂于期望風險。對于線性可分問題,如劃分兩個不相交的凸閉集,統計機器學習的算法設計就轉化為有效地計算兩個閉凸集之間的最大邊緣間隔問題(樣本集的結構),即SVM的算法思想之源。對于線性不可分問題,進一步根據泛函分析中的Mercer定理,SVM把樣本空間映射到一個高維乃至無窮維的特征空間中(Hilbert空間),使得在原來的樣本空間中非線性可分的問題轉化為在特征空間中的線性可分的問題。然而,由于大多數情況下樣本集在統計上不能滿足一致性假設(同分布),基于集成的多分類機器學習成為SVM的一種有效補充。其核心思想是,集成多個弱分類器,則其分類能力可以成為一個強分類器。之后,Kearns和Valliant提出了強PAC學習和弱PAC學習的概念。1998年,Schapire等人從邊緣出發證明了關于Boosting方法的泛化不等式,其中存在一個類似于前文統計機器學習理論的邊緣變量。1997年Freund和Schapire提出的AdaBoost才具有現實價值。此外,集成學習的另一類重要方法是Bagging。隨機森林(random forest)就是Bagging的一個擴展變體,它是在以決策樹為基學習器構建Bagging集成的基礎上,進一步在決策樹的訓練過程中引入了隨機屬性選擇。但Bagging的工作機理和理論性質與Boosting有著明顯區別。例如,從偏差-方差分解的角度看,Boosting主要關注降低偏差,而Bagging主要關注降低方差。自然地,也有Multi Boosting等方法嘗試將二者的優點加以結合。
三、連接機器學習
以Perceptron為源頭的連接機器學習在經歷兩次興起和低谷后,終于在2006年以深度學習之名再次興起。深度學習之所以被稱為“深度”,是相對支持向量機SVM、提升方法Boosting、最大熵方法等“淺層學習”方法而言的。深度學習模型和傳統淺層學習模型的區別為:(1)深度學習模型結構含有更多的層次,包含隱層節點的層數通常在5層以上,有時甚至包含多達10層甚至100層以上的隱藏節點。(2)明確強調了特征學習對于深度模型的重要性,通過逐層特征提取,將數據樣本在原空間變換到一個新特征空間來表示初始數據,使得分類或預測更容易實現。2011年微軟通過采用深度學習技術,大大降低了語音識別的錯誤率。2012年時任谷歌核心人工智能專家的吳恩達聯手Jeff Dean一起完成了谷歌大腦系統;微軟的首席工程師Rick Rashid展示了一個基于深度學習的自動同聲傳譯系統,得到好評。2013年,中國百度公司宣布成立百度研究院,成立深度學習研究所。2017年,AlphaGo在中國烏鎮圍棋峰會上,與排名世界第一的柯潔對戰,以3∶0的比分大獲全勝。目前,深度學習方法根據其具體使用的方法結構不同,分為生成式模型、判別式模型和混合式模型三種。隨著深度學習研究的熱潮持續高漲,各種開源的深度學習框架也開始涌現出來,其中包括最常用的Torch、Keras、Theano、PyTorch、Tensorflow等。與其他機器學習方法相比,深度學習往往不需要特征工程,也更容易適應不同的領域和應用;但其明顯的缺點是,在實際問題中,為了實現高性能,往往需要依賴大量標注數據。總體來說,目前深度學習領域還缺乏嚴格的理論基礎,工程實踐超前,理論進展嚴重滯后,還存在非常廣闊的學術研究和工程實踐空間。
四、總結
本文梳理了適于中高年級本科生吸收消化的三大主流機器學習思想及其代表性方法,期望為學生進行擴展性和創新性的機器學習方法學習與研究打下良好基礎。注意到,機器學習領域還有三種經典技術路線本文沒做具體介紹,包括貝葉斯機器學習、進化機器學習以及強化機器學習。在教學時間充足或學生學有余力的情況下,我們也會以補充材料的形式向學生做相關推介。可以肯定的是,當學生在大學提前進入課題組做具體的科研創新項目時,我們會進一步向他們系統介紹關于符號、統計、連接、貝葉斯、進化以及強化機器學習的相關知識、前沿研究與實踐經驗。尤其在機器學習方法本身的創新性方面,我們將著重引導學生進行符號學習、連接學習、貝葉斯學習的大融合發展。這是因為,我們深信真正的人工智能一定是聯合人類自身的推理能力(顯性或隱性)和數據驅動的機器學習能力才將得以實現。
參考文獻:
[1]周志華.機器學習[M].北京:清華大學出版社,2016.
[2]王玨,石純一.機器學習研究[J].廣西師范大學學報(自然科學版),2003,21(2):1-15.
[3]中國電子技術標準化研究院.人工智能標準化白皮書[R].2018.
[4]何清,李寧,羅文娟,史忠植.大數據下的機器學習算法綜述[J].模式識別與人工智能,2014,27(4):327-336.
[5]孫正雅,陶卿.統計機器學習綜述:損失函數與優化求解[J].中國計算機學會通訊,2009,5(8):7-14.
[6]李航.統計學習方法[M].北京:清華大學出版社,2012.
On the Three Main Lines of Machine Learning Knowledge Imparting and Scientific Research Literacy Cultivation for Middle and Senior Grade Undergraduates
SHAO Wen-ze,LIU Yuan-yuan,XU Yan-li,CHEN Long,CHEN Jie
(College of Communication and Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing,Jiangsu 210003,China)
Abstract:In the new wave of artificial intelligence,machine learning acts as the engine of the core of artificial intelligence.This paper introduces three main machine learning ideas and representative methods suitable for the absorption and digestion of middle-class undergraduates,and aims to lay a good foundation for the follow-up of the students and the learning and research of the innovative machine learning methods.
Key words:connectionism;statistical learning;symbolic learning;artificial intelligence