吳國娟
(天津鎏金鑠石科技有限公司 天津 300090)
近年來,隨著神經網絡和深度學習的突破性發展,人工智能領域迎來了新一輪發展狂潮,谷歌、微軟、facebook、阿里巴巴、騰訊、百度等業界巨頭都紛紛入場。但以目前而言,“人工智能”和“人類智能”的一個顯著的區別在于:傳統的深度學習技術需要大量的數據集進行訓練,才能生產出一個較好的模型。以圖片分類為例,要訓練一個0-9的手寫數字識別模型,大概需要6000張圖片作為訓練集,而人類大概只要每個類(每個數字)看一張圖片,即可抽象出每個類的特征,從而進行高效的識別。
于是,一個新的分支應運而生:小樣本學習(few-shot learning),即基于少量(單)樣本數據集或弱標簽標注的學習方法。
以圖片分類為例,假設我們的訓練集中有N個分類,每個分類中有K個樣本,一共有N*K個樣本,從N*K樣本中訓練出能夠對N個分類進行區分的模型的任務被稱為N-way K-shot問題。

《Optimization as a model for few-shot learning》5-way1-shot[1]
1.處理缺乏充足的樣本數據,或者樣本數據的獲取成本較高的深度學習。比如醫療領域基于深度學習的醫學診斷,需要高質量的醫療影像作為訓練樣本[2],而這些樣本資源有限,成本偏高。
2.個性化AI服務。比如在傳統制造業、實體企業缺乏完善的數據系統,存儲雜亂,采用一個互聯網企業訓練出來的通用模型又往往水土不服,要向這樣的企業提供AI解決方案,就需要引入小樣本學習。
3.用盡量少的樣本訓練出盡量精確的模型,是判斷一個深度學習算法質量的重要標準。
4.小樣本學習的進步,將促使“人工智能”向“人類智能”靠近。某種意義上,小樣本學習是“人工智能”走向“人類智能”的一把鑰匙,也是“弱人工智能”走向“強人工智能”的關鍵。
1.數據增廣
數據增廣大概又可以分為兩類。一類是對樣本數據進行加工,比如對一個圖片進行旋轉、組合、裁切,所得的數據跟原始數據組合成新的數據集。
對原始數據的處理
另一類是使用生成對抗網絡(GAN,Generative Adversarial Networks)來生成樣本進行數據集擴充。

Few-shot Classifier GAN結構圖[3]
通過以上方法實現了數據集的擴展之后,“小樣本學習”回歸到一種傳統的深度學習。
2.遷移學習。
遷移學習(Transfer Learning)即把一個領域(源領域Source Domain)的模型、特征、關系遷移到另一個領域(目標領域Target Domain),使得目標領域能夠獲取更好的學習效果。源領域代表有經驗,有標簽,數據量充足的數據源,目標領域代表無經驗,無標簽,數據量不足的數據源。遷移學習按照學習的方法,大概可以分為以下幾類:
①基于樣本的遷移。在源領域進行權重調整,源領域同目標領域中的相似度高的樣本提高權重,低相似的樣板降低權重,得到一個新的適用于目標領域的模型。
②基于特征的遷移。把源領域和目標領域的進行特征變換,把源領域和目標領域的交叉特征變換到相同的空間。
③基于模型的遷移。利用模型間存在的相似性,把源領域訓練好的模型應用到目標領域上。
3.記憶增強神經網絡(Memory-Augmented Neural Networks,MANN)
在《One-shot Learning with Memory-Augmented Neural Networks》[4]這篇論文中,作者提出了一種記憶增強神經網絡(Memory-Augmented Neural Networks,MANN)來快速提取樣本中的信息,并利用提取到的信息對少數樣本進行較為準確的預測。
記憶增強神經網絡(Memory-Augmented Neural Networks,MANN)在傳統的神經網絡模型的基礎上,增加了一個短時記憶的的工作。模型在處理樣本時,允許模型把樣本中的特征提取出來,存在內存里,讓神經網絡可以“思考”,關聯樣本上下文。記憶增強神經網絡在試圖模擬人腦的工作記憶機制,如果把模型的訓練參數比作人類的長期記憶或背景知識的話,那么在處理樣本時提取到內存中的特征參數就好比是人類工作時的短期記憶,這讓模型與樣本產生了互動。
傳統的深度學習,需要大量的數據去進行模型訓練,而當遇到新的數據時,又必須重新訓練。毋庸置疑,小樣本學習會是解決這類問題的方向之一,它同時提供了一種接近“人類智能”的哲學可能。
在上述3中解決方法的研究實踐中,數據增廣表現效果不錯,不過私以為,此法其實是一種變相的“多樣本學習”,好比把一道題目派生出幾道同類題目,讓小學生進行反復的機械訓練;而后兩種方法則更接近“智能”的本質,一曰“通感”,一曰“遺忘”。博爾赫斯說“遺忘是記憶的一種方式”[5],“遺忘”即是從世間萬物中抽象特征的智能算法,這或許也是 “小樣本學習”的方向所在。