肖堅
摘要:本文對小樣本類人概念學習與大數據深度強化學習進行對比分析,文中對大數據深度強化學習、小樣本類人概念學習兩者含義、發展、優劣等進行了探討,最后對兩者進行總體比較。
關鍵詞:小樣本學習;類人概念學習;深度強化學習;對比
在現代計算機發展的過程中,機器學習是現階段較為新穎的領域,但實際上是極為寬泛的概念,大數據深度學習與強化學習是其中較為重要的分支,深度強化學習則是兩種學習算法的融合。小樣本類人概念也是較為新穎的概念,相比于深度強化學習,其有更多待發掘的內涵。
一、大數據深度強化學習
深度學習最初發展于2006年,是一種機器學習中隱藏建模數據分布、多層表達的算法。換言之,深度學習算法能夠對分類中需求的底層或者高層特征的自動提取。所以深度學習算法對于數據特征能夠進行更好的進行表達,同時因為模型參數和層次多,容量也極大,能夠進行大規模數據表示,對于語音、圖形此類特征不明顯數據,能夠使用深度學習算法進行大規模數據訓練,效果也能夠保證良好。深度學習算法模型中,會把特征與分類器進行結合,形成一個框架,之后使用數據進行特征的學習,以此也使得使用中手工提取特征這一工作減少,學習算法中的工作量大大降低,因此使用便利、效果良好。深度學習算法使得數據處理中語音及圖像的識別得到極大推動。
強化學習則是一種連續決策過程,該算法的最大特點就是對任何數據都不會進行標注,只會提供唯一回報函數,這一函數對當前狀態結果有著決定性的影響。從數學的額角度來看,也是馬爾科夫決策過程。強化學習最終的目標是使得決策過程中整體回報函數期望最優化。在經過神經網絡結構,深度學習算法對于較多實際問題有了解決辦法,比如圖像搜索、人臉識別、色情語言識別、實時翻譯等。強化學習與深度學習的融合,使深度學習得到更為長遠的發展,比如進行游戲深度學習網絡的建立,就能夠在強化學習的支持下,實現自己與自己對戰,不斷實現自我的進化。
二、小樣本類人概念學習
深度學習在得到開發前,人工神經網絡也曾風靡一時。上世紀八十年代末,人工神經網絡中應用的反向傳播算法出現,使得以統計模型為基礎的機器學習得到發展。此前,有研究人員希望通過BP算法使人工神經算法模型從訓練中學習統計性的規律,以此使其獲得對未來進行預測的能力。BP算法無法實現這一目標,所以在上世界九十年代這一浪潮便逐漸平息。但是在BP算法的發展過程中,也有了更多的新奇思路,使以統計為基礎的機器學習算法和以人工規則為基礎的系統得到對比,明確了以統計為基礎的機器學習算法在較多方面都擁有先天的優勢。但深度學習也并非無所不能,科學進步都存在一定兩面性,一方面是優勢提升,一方面是限制增大。
在機器學習的整個行業而言,深度學習對于行業所要求的人工智能需求也是難以達成的。深度學習是以大數據為基礎,在多層網絡的處理下實現抽象概念理念,這也說明在進行應用中,數據越多則擁有更好的效果。但是也即是說,在沒有大數據支持的情況下,或者數據量較小的情況下,便無法進行學習。人類知識與深度學習有一定相似之處,都是通過積累所得,但人類在知識的沒有積累的情況下,也可以根據形貌進行分析、學習,進而模仿。深度學習從這一方面來看,與人類智能還存在較大的差距,人類在陌生環境中可以通過學習來對變化進行適應。所以類人概念學習的發展過程中,對于深度學習存在的弊端進行改良,可以再沒有大數據的情況下自行學習,這一概念也被研究者稱為小樣本學習。
小樣本學習早在神經網絡出現之前就已經被提出,而關鍵核心為貝葉斯規劃學習,也被稱作BPL方法。該方法是通過參數先驗分布,使用小樣本數據進行后驗分布的計算,進而得到總體分布。該方法是使用概率進行所有形式不確定性的標識,通過概率規則來進行推理和學習。BPL方法是以人類思維作為基礎的方法,即能夠不依賴大量數據來進行學習,只需要小樣本便能迅速進行學習精髓。拿漢字為例,將一個漢字作為小樣本使用BPL方法進行學習,很快便能夠學習到精髓,并寫出該漢字,甚至能夠將其他類似文字寫出。因為該方法每個訓練樣本都能進行增量升高或降低一種假設估計概率,BPL方法也順利達成視覺圖靈測試要求,而其他算法對于某一假設和其他任何樣本不統一時,將假設摒棄。BLP方法在進行應用中,對于概率初始知識有所要求的,在概率位置的情況下可以根據數據、背景知識、基準分布假設來進行此類概率的估算。
三、小樣本類人概念學習與大數據深度強化學習的對比分析
通過上文對兩個學習算法的分析來看,深度學習算法在現階段中已經獲得重大成功,但是在未來發展過程中其也具有較大的局限性,最為突出的便是深度學習使用的效果是與數據量成正比的,同時在較多任務中表現一般;而BPL方法則對機器學習、認知科學、人工智能有著極大貢獻,在未來發展中也具有一定前景。深度學習對于計算機中的大數據處理需求進行了滿足,實現大量數據中習得抽象概念;BPL方法使得樣本量小的情況下機器學習實現,能夠對小樣本進行學習、決策。更加形象化的理解,深度學習能夠對規律、趨勢進行分析和預測,而BPL方法則能當機立斷,舉一反三;深度學習與人類閱讀書籍一樣,積累會形成相應的判斷能力,BPL方法則是通過個案學習來進行迅速化的決策。
四、結論
本文對兩種學習算法進行了分析和對比,明確了兩種算法自身存在的有點及缺陷:小樣本類人概念學習算法具有通過小樣本學習迅速決斷的能力,但有一定概率錯誤,尤其在先驗概率為形成的情況下;大數據深度強化學習通過大量數據的學習,來形成判斷能力大,判斷也有錯誤概率,但相對BPL更小,但明顯依賴大數據數量。在應用中,兩者并非是互相對立的,反而能夠通過借鑒、互補實現學習算法進一步發展。
參考文獻
[1]崔小洛,欒曉飛,基于深度強化學習的圖像修復算法設計[J].物聯網技術,2019(06):58-60.
[2]李旭,曹繼征,大數據在公安交通管理中的應用探討[J].環球市場,2018(09):166-167.