余濤 賈如春
【摘要】機(jī)器學(xué)習(xí)是人工智能中最重要的部分,人工智能區(qū)別于普通的大數(shù)據(jù)分析之處就在于具備了機(jī)器學(xué)習(xí)的特點(diǎn).本文基于機(jī)器學(xué)習(xí)人工智能算法進(jìn)行簡(jiǎn)析其原理及應(yīng)用場(chǎng)景,更加理性深入對(duì)人工智能技術(shù)進(jìn)行全面的分析,對(duì)人工智能技術(shù)背后數(shù)學(xué)理論及實(shí)際應(yīng)用的分析基礎(chǔ)上,對(duì)機(jī)器學(xué)習(xí)算法主要任務(wù)、深度學(xué)習(xí)發(fā)展動(dòng)因、深度學(xué)習(xí)算法應(yīng)用進(jìn)行梳理和分析,提取出人工智能算法主要能夠完成的三類任務(wù),并在技術(shù)層面針對(duì)人工智能下一步發(fā)展與應(yīng)用做出了分析和展望.
【關(guān)鍵詞】人工智能;機(jī)器學(xué)習(xí);深度學(xué)習(xí);回歸;分類;聚類
伴隨網(wǎng)絡(luò)及計(jì)算機(jī)技術(shù)的長(zhǎng)足發(fā)展,人工智能隨著深度學(xué)習(xí)技術(shù)應(yīng)用的突破取得極大進(jìn)展,各種落地應(yīng)用及概念產(chǎn)品層出不窮,人們對(duì)其在生產(chǎn)生活中的革命性創(chuàng)新充滿期待.機(jī)器學(xué)習(xí)的算法很多,其中大部分算法都是一類算法,而有些算法又是從其他算法中延伸出來(lái)的.本文從兩個(gè)方面來(lái)分析算法,一方面,通過(guò)學(xué)習(xí)的方式,另外一方面,是算法的類似性;通過(guò)人工智能算法脈絡(luò),解析基本算法應(yīng)用場(chǎng)景,使我們對(duì)人工智能技術(shù)有一個(gè)更為理性深入和全面的理解及思考.
一、機(jī)器學(xué)習(xí)方式
根據(jù)數(shù)據(jù)類型的不同,數(shù)學(xué)建模也有不同的方式,在機(jī)器學(xué)習(xí)或者人工智能領(lǐng)域中,人們首先會(huì)考慮算法的學(xué)習(xí)方式,在機(jī)器學(xué)習(xí)中,不同的學(xué)習(xí)方式將算法按照學(xué)習(xí)方式進(jìn)行分類,在建模和算法選擇的時(shí)候考慮能根據(jù)輸入數(shù)據(jù)來(lái)選擇最合適的算法來(lái)獲得最好的結(jié)果.
(一)強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)模式下,輸入數(shù)據(jù)作為對(duì)模型的反饋,輸入數(shù)據(jù)直接反饋到模型,模型必須對(duì)此立刻做出調(diào)整.在企業(yè)數(shù)據(jù)應(yīng)用的場(chǎng)景下人們最常用的可能就是監(jiān)督式學(xué)習(xí)和非監(jiān)督式學(xué)習(xí)的模型,在圖像識(shí)別等領(lǐng)域,由于存在大量的非標(biāo)識(shí)的數(shù)據(jù)和少量的可標(biāo)識(shí)數(shù)據(jù),目前半監(jiān)督式學(xué)習(xí)是一個(gè)很熱門的話題,而強(qiáng)化學(xué)習(xí)更多地應(yīng)用在機(jī)器人控制及其他需要進(jìn)行系統(tǒng)控制的領(lǐng)域.
二、人工智能算法分類
根據(jù)算法的功能和形式的類似性可以把算法分類,比如,基于樹(shù)的算法,基于神經(jīng)網(wǎng)絡(luò)的算法等等.當(dāng)機(jī)器學(xué)習(xí)的范圍非常龐大的時(shí)候,有些算法很難明確歸類到某一類,而對(duì)有些分類來(lái)說(shuō),同一分類的算法可以針對(duì)不同類型的問(wèn)題把常用的算法按照最容易理解的方式進(jìn)行分類.
(一)回歸算法
機(jī)器算法分類中最常見(jiàn)的機(jī)器學(xué)習(xí)及其常用算法首當(dāng)其沖是回歸,回歸算法采用對(duì)誤差的衡量來(lái)探索變量之間的關(guān)系的一類算法,在機(jī)器學(xué)習(xí)領(lǐng)域,回歸算法也有很多種,其中最為常用的算法線性回歸是最簡(jiǎn)的形式,用一個(gè)連續(xù)的超平面來(lái)擬合數(shù)據(jù)集;而回歸樹(shù)(集成方法)通過(guò)將數(shù)據(jù)集重復(fù)分割成不同的分支來(lái)最大化每次分離的信息增益,從而讓回歸樹(shù)很自然地學(xué)到非線性關(guān)系,集成方法包括隨機(jī)森林(RF)或梯度提升樹(shù)(GBM);除此之外,還有最鄰近算法和深度學(xué)習(xí).
(二)分類算法
分類算法用于分類變量建模及預(yù)測(cè)的監(jiān)督學(xué)習(xí)算法,許多回歸算法都有其對(duì)應(yīng)的分類形式,分類算法往往適用于類別(或其可能性)的預(yù)測(cè),而非數(shù)值.其中最為常用的算法主要有五種.
(1)(正則化)邏輯回歸,邏輯回歸通過(guò)邏輯函數(shù)將預(yù)測(cè)映射到0到1的區(qū)間,因此,預(yù)測(cè)值可被視為某一類別的概率.
(2)分類樹(shù)(集成方法),對(duì)應(yīng)于回歸樹(shù)的分類算法是分類樹(shù).通常它們都是指決策樹(shù),更為嚴(yán)謹(jǐn)?shù)恼f(shuō)法是“分類回歸樹(shù)”,也就是非常有名的CART算法.
(1)支持向量機(jī),支持向量機(jī)使用一個(gè)名為核函數(shù)的技巧,來(lái)將非線性問(wèn)題變換為線性問(wèn)題,其本質(zhì)是計(jì)算兩個(gè)觀測(cè)數(shù)據(jù)的距離.支持向量機(jī)算法所尋找的是能夠最大化樣本間隔的決策邊界,因此,又被稱為大間距分類器.
(2)樸素貝葉斯,基于條件概率和計(jì)數(shù)的簡(jiǎn)單算法,其本質(zhì)是一個(gè)概率表,通過(guò)訓(xùn)練數(shù)據(jù)來(lái)更新其中的概率.其核心的特征條件獨(dú)立性假設(shè)(例如,每一項(xiàng)輸入特征都相互獨(dú)立)在現(xiàn)實(shí)中幾乎是不成立的.
(三)聚類算法
聚類算法基于數(shù)據(jù)內(nèi)部結(jié)構(gòu)來(lái)尋找樣本自然族群(集群)的無(wú)監(jiān)督學(xué)習(xí)任務(wù),使用案例包括用戶畫(huà)像、電商物品聚類、社交網(wǎng)絡(luò)分析等.而在機(jī)器學(xué)習(xí)領(lǐng)域內(nèi),兩個(gè)最為重要的概念是維度及特征選取.其中“維度(DIMENSIONALITY)”通常指數(shù)據(jù)集中的特征數(shù)量(即輸入變量的個(gè)數(shù)).而特征選取是從數(shù)據(jù)集中過(guò)濾掉不相關(guān)或冗余的特征.
三、人工智能深度學(xué)習(xí)的發(fā)展及應(yīng)用
傳統(tǒng)機(jī)器學(xué)習(xí)算法在語(yǔ)音識(shí)別、物體識(shí)別方面無(wú)法有效展開(kāi)應(yīng)用,其重要原因之一就是這類算法無(wú)法使用語(yǔ)音及圖像的高維度數(shù)據(jù)(High-dimensional Data)在高維空間學(xué)習(xí)復(fù)雜的函數(shù),即使算力極為豐富的現(xiàn)階段也無(wú)法有效滿足其算力需求;因此,深度學(xué)習(xí)方法應(yīng)運(yùn)而生,傳統(tǒng)機(jī)器學(xué)習(xí)算法所面臨的問(wèn)題被稱作維度詛咒(Curse of Dimensionality),高維度數(shù)據(jù)的參數(shù)設(shè)置需求隨著變量的增加呈指數(shù)型增長(zhǎng),對(duì)計(jì)算能力提出了極大挑戰(zhàn),近乎無(wú)法完成.而深度學(xué)習(xí)采用多層調(diào)參,層層收斂的方式,將參數(shù)數(shù)量始終控制在一個(gè)較為合理的水平,使得原本不可計(jì)算的模型可運(yùn)算.深度學(xué)習(xí)CNN及RNN兩類網(wǎng)絡(luò)的基本原理在多種識(shí)別、感知任務(wù)中應(yīng)用實(shí)施,表現(xiàn)優(yōu)異.作為人工智能技術(shù)未來(lái)重要發(fā)展方向之一的遷移學(xué)習(xí),人工智能技術(shù)的快速發(fā)展,相關(guān)知識(shí)沉淀,面對(duì)當(dāng)前深度學(xué)習(xí)算法及網(wǎng)絡(luò)發(fā)展日新月異,人工智能技術(shù)發(fā)展將廣泛應(yīng)用于中國(guó)2025制造及未來(lái)工業(yè)4.0中.