聶振海 賈丹
摘 要:基于“深度神經網絡”(DNN,深層神經網絡)的機器學習模型,已在語音識別、圖像識別和自然語言處理領域取得突破進展。深度學習極大地拓展了機器學習研究領域,并推動人工智能技術取得迅猛發展。深度學習通過多層人工神經網絡,從大量的訓練數據集中無監督學習,不斷地歸納總結并可對新的數據樣本做出智能識別和準確預測。
關鍵詞:深度學習 ?人工神經網絡 ?機器學習
中圖分類號:TP181 ? ? ? ? 文獻標識碼:A 文章編號:1674-098X(2015)10(c)-0224-02
20世紀80年代末,人工神經網絡反向傳播算法(BP,反向傳播)發明,極大地擴展了機器學習的研究基礎,繼而推進基于統計模型的機器學習范疇。BP算法允許使用的人工神經網絡模型,從大量的統計規律,預測未知事件的訓練樣本的學習。根據對比的實驗結果,基于人工規則的統計模型機器學習方法,結果表明具有相對優越性。基于人工神經網絡BP算法,雖然被稱為多層感知器,但仍然是一個淺層的模型,只具有一個隱藏層節點。90年代以來,眾多基于淺層模型的機器學習算法應運而生,如,支持向量機(SVM),Boosting,最大熵法(LR)等。這些模型的結構通常只包含一個隱層節點(SVM,Boosting),或者不隱藏節點(LR)。在學術研究和工業應用中證明:這些機器學習模型是一個巨大的成功。自2000年以來,隨著IT行業的蓬勃發展,智能分析和大數據預測的技術在互聯網領域呈現出巨大的市場需求,基于淺層模型的機器學習算法獲得不斷應用推廣。如,移動應用平臺的搜索廣告系統,谷歌的AdWords廣告的點擊率估算,網絡搜索排序(如雅虎和Bing搜索引擎),垃圾郵件過濾系統,社交媒體上的推薦系統內容推廣。
傳統的機器學習模式是通過監督學習和半監督學習,人工控制采樣數據集的特征,淺層機器學習模型主要負責特征分類或預測。當基于統計模型的特征提取時,特征提取的好壞將成為決定整個系統性能優劣的關鍵因素。深度學習對機器學習模型和大量的訓練數據的本質不同在于,即通過有許多隱藏的多層神經網絡中無監督學習出更多隱含的特征,從而提高對數據集的分類或預測的準確性。深度學習模式不同于傳統的淺層學習模型:(1)機器模型結構往往多于1層,通常有5層并隱含多層節點;(2)強調無監督學習,通過逐層功能的重要性變換映射出樣品從原來特征空間改造成一個新的特征空間表示,使得分類或預測變得容易實現。利用大數據的特點來機器學習,闡明了基于深度學習的方法對比基于人工特征提取規則的傳統淺層機器學習方法,更能深刻揭示出數據背后所隱含的豐富信息。
支持深度學習的基礎,是因為人類大腦系統確實含有豐富的層次。2006年,多倫多大學的杰弗里·辛頓教授發表了1篇文章,介紹了傳統機器學習的突破,即深度學習。(1)基于人工神經網絡隱層的學習能力優異的特性,無監督學習更能深刻獲取大數據的隱含信息,從而方便地對數據進行可視化或分類處理;(2)深度學習的難度可以通過無監督學習“逐層初始化”有效地克服。谷歌、Facebook等大數據頂尖的IT企業現在廣泛深入的進入深度學習研究領域,在大數據時代,更復雜,更強大的模型往往更深刻地揭示出豐富的數據信息內涵,并對未來或未知事件作出更準確的預測。
1 語音識別
在語音識別領域,深度學習面臨的問題是海量數據信息處理問題。在其聲學建模部分,它通常面對10億級別以上的訓練樣本。谷歌語音識別的研究小組發現,比對訓練DNN預測誤差和測試大致相等的樣本之后,預測誤差對訓練樣本的通常模式將顯著小于測試樣品。由于大量的數據包含了豐富的信息層面,DNN大容量復雜的模型也是欠擬合狀態。
傳統的語音識別系統,基于統計概率模型對每個建模單元描述時,大多采用高斯混合模型(GMM)。這種模式適用于大量數據的訓練,成熟的區分度技術支持。但是高斯混合模型本質上是一種淺層網絡建模,不能完全描述出空間分布特性的狀態。GMM建模特征尺寸通常為幾十維,不能充分地描述特征之間的相關性。最后,GMM模型本質上是一種可能性的概率模型,雖然區分度訓練可以模擬并將一般模式類區分開來,但效果一般。基于神經網絡的語音識別系統深入徹底改變了原來的語音識別技術框架。基于神經網絡的深度可以充分地描述特征之間的相關性,它將語音設有多個連續的幀,多幀并在一起,構成一個高維特征,神經網絡的最終深度可用于模擬高維特征的訓練。由于使用人腦的多層神經網絡的仿真結果的深度,可以進行逐步信息特征提取,最終形成理想模式的分類特征。其具體使用方法如下:在實際解碼處理中,使用傳統的統計語言模型,解碼器使用常規的動態WFST譯碼器,采用傳統的HMM聲學模型的模型語音模型。當聲音輸出分布模型計算,完全與神經網絡的后驗概率乘以先驗概??率后輸出,以取代傳統的HMM模型輸出GMM的可能性概率。2011年,使用DNN技術的微軟語音識別研究組,相對于傳統的GMM語音識別系統,執行一個語音模型的語音識別系統,其相對誤差的識別率下降25%,是語音識別領域的重大突破。
2 圖像識別
1989年,紐約大學教授揚·LeCun公布的卷積神經網絡CNN的研究。CNN具有一個卷積神經網絡結構與深度,通常至少兩個非線性卷積層可訓練,兩個非線性固定卷積層(池層)和一個完整的連接層,總共至少5個隱藏層。 CNN的結構的靈感來自于著名的胡貝爾-威塞爾生物視覺模型,特別是模擬視皮層簡單細胞V1和V2復雜的細胞行為層。一段時間以來,CNN雖然對規模小的問題有比較好的效果,但對大規模高像素的圖像識別,如,高清晰度的自然圖像內容的理解效果并不理想。2012年,杰弗里·辛頓在著名的ImageNet問題,利用更深層次的CNN獲得出更好的結果,并將錯誤率的評測從26%降低到15%。辛頓的模型,該輸入圖像的像素是不介入任何人工特征提取干預。識別效率變得優異的部分原因是因為優化的算法,從而防止過度擬合技術,同時受益于硬件帶來GPU計算能力的提升和更多的訓練數據集。深入學習將取代“人工特點+機器學習”的傳統模型,逐漸成為圖像識別的主流方法。
3 自然語言處理
深度學習的另一個應用領域是自然語言處理(NLP)。加拿大蒙特利爾大學Yoshua Bengio教授,提議將詞映射到一個矢量表示空間用Embedding方法,然后用非線性神經網絡模型來表示。在2008年,工業界成功使用結構化和多維卷積解決嵌入詞性標注,組塊,命名實體識別,語義角色標注四種典型的NLP問題。相較于聲音和圖像,語言是人類獨有的創造性成果,全部符號的生成通過人類的大腦處理系統,但人工神經網絡模擬人腦的結構,在處理自然語言沒有顯示出明顯的優勢。深度學習在自然語言處理方面廣泛的擴展空間。
在大數據時代,深度學習已經推進機器學習研究的快速發展,引起學術界和工業界的充分重視。在實際應用中,深度學習已經在語音識別,圖像識別與自然語言處理方面取得了顯著的進步,從而促進人工智能的不斷發展。
參考文獻
[1] LeCun,Y.,Bengio,Y.and Hinton,G.E.(2015).Deep Learning.Nature,2015,521:436-444.
[2] Hinton,G.E.,Osindero,S.and Teh,Y.fast learning algorithm for deep belief nets[J].Neural Computation,2006(98):1527-1554.
[3] Hinton,G.E.and Salakhutdinov,R.R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(28):504-507.