劉佳琦,楊 璐,王龍志
(1天津理工大學 天津市先進機電系統設計與智能控制重點實驗室,天津300384;2天津理工大學機電工程國家級實驗教學示范中心,天津300384;3奧特貝睿(天津)科技有限公司,天津300300)
知識蒸餾是深度學習領域一項重要的模型壓縮技術。傳統的蒸餾學習思想是通過提前訓練好的大網絡對輕量網絡進行知識傳遞,從而使輕量網絡能達到大網絡的表達能力,實現知識遷移。基于傳統蒸餾學習的模型訓練主要分為兩個步驟:首先充分訓練一個結構復雜、學習能力強的教師網絡,使其具有優秀的表達能力;其次在教師網絡的基礎上設計一個結構簡單、參數量小的學生網絡,使用教師網絡的特征約束作為軟標簽進行監督,使學生網絡通過軟標簽對真實標簽輔助訓練,逐漸逼近教師網絡的表達水平。從模型推理方面分析,教師網絡只在訓練階段對學生網絡起到約束作用,不參與學生網絡的獨立推理過程的計算與部署,因此知識蒸餾在神經網絡模型輕量化領域有著重要的意義。
由于傳統蒸餾學習中的教師網絡對學生網絡的知識傳遞是單向的,難以從學生網絡的學習狀態中得到反饋信息,來對訓練過程進行優化調整,從而對學生網絡的訓練產生負影響;其次,采取教師網絡產生軟標簽結合真實標簽進行監督的形式,當軟標簽權重過高時,學生網絡會過于模仿教師網絡,從而限制學生網絡的特征表達能力;……