摘 要:持續學習作為一種在非平穩數據流中不斷學習新任務并能保持舊任務性能的特殊機器學習范例,是視覺計算、自主機器人等領域的研究熱點,但現階段災難性遺忘問題仍然是持續學習的一個巨大挑戰。圍繞持續學習災難性遺忘問題展開綜述研究,分析了災難性遺忘問題緩解機理,并從模型參數、訓練數據和網絡架構三個層面探討了災難性遺忘問題求解策略,包括正則化策略、重放策略、動態架構策略和聯合策略;根據現有文獻凝練了災難性遺忘方法的評估指標,并對比了不同災難性遺忘問題的求解策略性能。最后對持續學習相關研究指出了未來的研究方向,以期為研究持續學習災難性遺忘問題提供借鑒和參考。
關鍵詞:持續學習;災難性遺忘;正則化策略;重放策略;動態架構策略
中圖分類號:TP181 文獻標志碼:A 文章編號:1001-3695(2023)05-002-1292-11doi: 10.19734/j.issn.1001-3695.2022.10.0495
0 引言
持續學習是一種模擬人類大腦學習的特殊機器學習范例,不會忘記過去任務所學習的知識。持續學習能力可歸結為兩點特性:a)模型具有動態調整的學習新任務的能力,即可塑性;b)學習當前任務知識不會忘記過去任務知識,即穩定性。而深度神經網絡作為機器學習的主流技術,通常用于圖像識別、目標檢測、圖像分類等視覺任務,但當深度神經網絡學習下一項任務時,網絡學習的新任務知識會覆蓋之前任務學習所獲得的知識,網絡模型對過去任務性能表現下降[1]。
圖1為持續學習主觀性能表現。經過數據集d0的訓練,模型f0具備識別類n的能力,當增加額外的視覺任務,新任務的訓練集中不再提供前n個類的任務數據標簽,而是單獨的t個數據類標簽訓練。經過額外任務訓練后,相同場景下,不具備持續學習能力模型f0喪失了對前任務類的識別,產生災難性遺忘,而具備持續學習能力模型f1除了能很好地識別額外任務類(n+t),還保持著對前任務類的識別能力。通過對比分析,持續學習要實現對連續非平穩任務流的學習并保持過去任務性能,所面臨的一個重要挑戰是神經網絡如何能在學習當前任務時最大限度地避免產生災難性遺忘問題,即滿足具備緩解災難性遺忘問題的可塑性和穩定性條件[2],而要達成這一條件,一方面可通過研究內部數據分布變化對重要數據變化進行保護以提升可塑性;另一方面可研究知識存儲方法,在保持模型容量不變的情況下最大限度容納更多知識。
通過檢索2017年1月至2022年6月IEEEXplore、Web of Science、Arxiv、EI數據庫收錄的關于關鍵詞“持續學習/增量學習/終身學習/不忘學習”的相關文獻發現,持續學習正逐步成為深度學習領域的一個新熱點研究方向,相關文獻收錄情況如圖2所示。其中緩解災難性遺忘問題的研究主要集中在正則化策略(權重正則化、梯度正則化、知識正則化)、重放策略(經驗重放、生成式重放)和聯合策略,具體如圖3所示。神經網絡通過對網絡內部嵌入正則化,保護重要權重、限制梯度更新和知識蒸餾緩解災難性遺忘; 同時,通過模擬人類大腦學習機制,對舊任務經驗隨機存儲重放或通過生成模型對舊任務經驗進行生成重放實現對過去知識的回顧; 此外,通過模型自生長或重用神經元可使模型具備較好的可塑性及穩定性。在此基礎上,通過結合正則化策略、重放策略和動態架構策略的優勢進一步減緩災難性遺忘。
現有關于持續學習的綜述文獻在學術界具有一定的引領作用,文獻[3]定義了六種持續學習特性對模型增長、固定表征和微調幾種策略進行分析,并通過對幾種典型的持續學習策略在統一評估標準下進行實驗對比分析;文獻[4]提出了持續學習穩定性—可塑性權衡框架,并對11種持續學習方法進行實驗分析;文獻[5,6]從生物學習機制角度出發解釋了持續學習的災難性遺忘問題及緩解機制。上述綜述文獻無論是從實驗角度來測試不同策略性能還是從生物學習機制解釋遺忘及緩解機制,都對持續學習研究作出了重要貢獻,但在數據分布變化和知識存儲角度的遺忘機理的解釋、各種緩解遺忘策略的作用層面及原理性分析對比等方面并未進行綜述。基于此,本文從數據分布變化和知識存儲兩個方面解釋了災難性遺忘緩解機理,并根據緩解機理分析,將求解災難性遺忘的研究策略分為正則化策略、重放策略、動態架構策略和聯合策略四類;同時對比分析了災難性遺忘求解策略性能,并對緩解災難性遺忘策略的發展進行展望,以期豐富持續學習最新進展并為學者對持續學習研究提供參考。
1 持續學習定義及遺忘緩解機理
1.1 持續學習定義
非平穩數據流是指任務數據流的學習目標和數據分布隨著時間而變化,傳統機器學習是在固定的數據中隨機抽樣數據進行學習,而現實要求agent能夠從不斷隨時間變化的非平穩數據流中學習,并能保持過去的任務性能。持續學習(continual learning,CL)是一種在連續非平穩任務流中不斷學習新知識并記住舊知識的前沿深度學習技術,學習目標和數據隨時間而變化,無須每次訓練時任務目標是獨立同分布(independent and ide ally distributed,IID)的。在學術界,持續學習有多個近義詞,如終身學習[5]、增量學習[7]或是不間斷學習[8],本文將能在連續非平穩任務流中不斷學習新知識并不忘舊知識的前沿深度學習技術稱之為持續學習。圖4為持續學習理想系統[9],在該系統中,持續學習不斷接收并學習順序任務流,學習過程可利用參數共享將過去知識遷移至當前任務的學習中,提高學習效率,另一方面通過存儲精煉當前任務知識用于未來任務的學習。
1.2 災難性遺忘緩解機理
災難性遺忘(catastrophic forgetting,CF)[1]是指神經網絡學習任務數據流時,網絡模型參數在訓練過程中不斷被修改以適應新任務需要,導致模型對過去任務學到的知識產生“遺忘”的現象。就遺忘機理而言,一方面可以研究其內部數據分布變化機理,遏制重要參數更新或者覆蓋不重要神經元;另一方面可研究模型知識存儲機理,通過設置單獨知識存儲區以存儲舊知識或是通過生成模型對舊知識進行重現等方式緩解遺忘;同時,模型內部動態調整模型架構以容納更多的有用知識。
1.2.1 數據分布變化
當數據分布處于動態時間序列時,數據流會發生移位,一個未發現的數據變化會導致模型對之前所學到的知識產生遺忘。動態數據流的數據分布隨著時間變化,當已訓練模型預測動態目標數據時會產生概念漂移[10],而模型要求動態目標有較高的預測精度,需要不斷更新模型參數適應新的變化。
根據環境變化將概念漂移分為虛擬概念漂移和真實概念漂移[11]。虛擬概念漂移是指目標概念保持穩定,輸入數據分布變化導致的概念漂移,決策邊界發生變化[12];真實概念漂移是目標概念發生變化導致的漂移,輸入數據分布會發生變化,如果目標數據分布變化未被檢測以及模型沒有及時更新產生真實概念漂移則會導致遺忘發生[13]。此外,概念漂移還因數據分布隨時間變化呈現出突變概念漂移、增量概念漂移、漸變概念漂移和循環概念漂移[14]四種不同的形式。值得注意的是,動態數據流中所存在的噪聲或者離群值不屬于概念漂移范疇。因此,對概念漂移所造成的遺忘問題,研究者要實時檢測數據分布變化,對知識有效持續時間進行建模使模型能及時作出更新。現有基于數據分布變化的典型緩解遺忘方式可通過對權重、梯度等重要參數的變化檢測,并在損失函數中限制其變化;或是通過檢測重要神經元并在訓練過程中重用非重要神經元。
1.2.2 知識存儲
神經網絡模型通常設定一定的模型容量來學習新知識,在訓練過程中為適應新任務因內存容量或自身結構等原因導致參數逐漸被覆蓋造成模型對舊任務性能下降產生災難性遺忘;另一方面,模型容量不會無限擴增,大量的數據存儲降低了模型訓練效率[15]。
持續學習系統需要設計一種存儲過去任務知識機制,這些知識以原始數據、權重、正則化矩陣等形式單獨設置緩存或是通過模型架構擴展的方式存儲。同時,高效的內存管理策略只保存重要的信息,并將存儲的知識和技能用于未來任務的學習。在實踐中,持續學習系統應該在保存重要信息的精確性和遺忘知識程度之間找到平衡點[16]。新任務的學習導致舊任務知識的記憶退化,因此研究導致舊任務知識被遺忘的機制具有重要意義。現有基于知識存儲的典型緩解遺忘方式可通過針對性地重放部分舊知識或利用生成模型生成偽舊知識,此外,通過模型架構自適應擴展以容納更多有關舊任務參數也是行之有效的方式。
事實上,現有災難性遺忘求解策略主要是基于上述兩種災難性遺忘緩解機理而衍生,如正則化策略、重放策略和動態架構策略等。
2 災難性遺忘求解策略
針對災難性遺忘問題,一是通過增加模型容量存儲新知識緩解遺忘; 二是通過研究不同災難性遺忘機制將模型約束在“穩定性—可塑性”環境中[17]。雖然第一種方法能比較徹底地緩解遺忘問題,但現實中模型容量不能無限增長,本文重點分析不同的災難性遺忘求解策略,包括正則化、經驗重放、動態架構策略及聯合不同單種策略優勢的聯合策略,如圖5所示。
2.1 正則化策略
正則化策略通過模型參數層面的約束,限制權重參數變化或梯度更新方向等方式限制模型在保持過去任務性能的參數變化。本文通過對不同參數限制方式將正則化方法分為權重正則化、梯度正則化和知識蒸餾。
2.1.1 權重正則化
權重正則化通過設置重要參數評估器計算部分存儲的模型參數來限制模型保持舊任務性能的重要權重參數的更新范圍,以保持舊任務性能,減少災難性遺忘。
正則化策略的主要貢獻之一是參數自適應調節方法,然而,參數自適應是以犧牲不重要信息為代價,如何度量參數重要性并保護重要參數是權重正則化所要解決的問題。基于此,Thompson等人[18]提出權重保護的機器學習算法——彈性權重整合(elastic weight consolidation,EWC),利用Fisher信息矩陣評估權重重要性并對新舊任務參數差異進行二次懲罰,在不忘記之前任務的情況下學習新任務。EWC的正則化損失函數計算式L′(θ)如下所示:
其中:L(θ)為新任務損失;λ為超參數;Fm為Fisher信息矩陣的第m個對角元素;θm為新任務的權重向量;θ*m為過去任務最優權重向量。Fm為每個新任務的參數計算Fisher信息值判定參數重要性,Fm值越大,表明參數與分類器性能越相關,在訓練過程中,需限制該參數的變動范圍以保持舊任務性能。
與EWC方法類似,Zenke等人[19]提出智能突觸(synaptic intelligence,SI)方法,通過為每個突觸建立過去任務參數重要性評估器來評估會影響過去任務記憶的特征參數,在學習新任務時對重要參數進行懲罰防止遺忘。SI通過計算訓練新任務后歐氏空間中距離差的累積變化判斷權重的重要性,參數正則化重要性評估公式為
其中:μ為新任務序列; v為過去任務序列; q為參數序列; ωvq為參數k對總損失的影響; Δvq正則化項與損失函數具有相同單位; ξ為阻尼系數,使Δvq趨于0。
相比EWC離線方式計算Fisher信息矩陣評估參數重要性,SI通過在線方式計算每個突觸的權重,追蹤整個學習軌跡,使得參數重要性評估更加精準。Aljundi等人[15]提出記憶感知突觸(memory aware synapses,MAS)方法,MAS以無監督和在線方式計算神經網絡參數的重要性,并在訓練新任務時添加正則化器,比較原始訓練數據和擾動訓練數據的輸出,得到模型靈敏度權重,并懲罰對重要參數的更改。相比傳統損失函數正則化方法,MAS更加關注對學習函數的正則化,通過對參數出現頻率估計參數的重要性。
EWC在不擴展網絡和保留舊數據的情況下減輕災難性遺忘,節省存儲空間。鑒于EWC的魯棒性,Chaudhry等人[16]利用移動平移法計算Fisher信息矩陣,對EWC進行改進,并將該方法命名為EWC++,利用KL離散度對條件似然分布進行約束,使新的條件似然分布更接近過去任務所學的似然分布,通過計算Fisher信息矩陣所捕捉的似然分布的KL離散度曲率來計算參數重要性。相比EWC,EWC++具備更加高效且精準的性能。類似地,文獻[20]通過旋轉參數空間使Fisher信息矩陣近似為對角矩陣,提高重要性;Amer等人[21]結合動態信息平衡和EWC模型正則化防止遺忘;Schwarz等人[22]利用EWC對過去任務保護的要求,提出一種知識庫和活動組成持續學習框架,在防止遺忘問題上具有較好的效果。
此外,June等人[23]提出自適應稀疏化的正則化持續學習(adaptive group sparse regularization for continual learning,AGS-CL)方法,利用稀疏性二次懲罰對模型進行適應性更新;同時,AGS-CL重新初始化與不重要節點相關聯的權重,防止災難性遺忘的負向傳遞并提高新任務學習能力。類似地,Pomponi等人[24]提出利用過去任務提取的特征向量對當前任務訓練進行正則化持續學習—嵌入正則化(embedding regularization,ER)方法,設置中間輔助目標選擇約束以便網絡在訓練過程中自我適應,限制過去任務參數不被遺忘。ER與領域自適應中的少遺忘學習方法(less-forgetful learning,LFL)[25]相連接,并結合圖神經網絡[26]進行學習。為了減少所需外部存儲的內存占用,設計了動態采樣策略對過去特征參數進行隨機采樣存儲。AGS-CL和ER都在降低內存上進行設置,但隨著任務增多,存儲的參數量也隨之增加,導致部分舊參數被覆蓋而遺忘。
文獻[27~32]也采用權重正則化策略以減緩遺忘產生。分析發現,權重正則化無須有大量的參數計算,具有較高的計算效率以及相對低的內存占用量,可用于圖像分類任務相關的工業領域,如故障診斷[33]、質量檢測[34]等。但隨著任務增多,模型對過去任務參數保護度逐漸累積,一定程度上阻礙了模型對新任務學習。
2.1.2 梯度正則化
梯度正則化不同于權重正則化,既不處理單個權重,也不處理算法輸出,通過存儲過去任務參數作為情景記憶。在模型訓練新任務時,對模型梯度進行約束,使梯度更新方向逼近情景記憶計算的梯度方向。Lopez-Paz等人[35]利用梯度約束提出梯度情景記憶(gradient episodic memory,GEM),通過對當前任務的梯度更新和不等式約束來減少對之前任務知識的遺忘。在GEM中,過去任務的子集被保存到固定大小的外部內存中,用于約束當前訓練任務梯度,避免增加過去任務的損失。GEM計算方法首先定義任務k的情景記憶損失函數:
由于A-GEM只需計算隨機子集梯度而無須存儲矩陣G,在新的梯度更新規則下,不僅提高了A-GEM計算效率,還節省了內存空間。類似的改進工作包括:文獻[37]提出變體軟約束GEM—-SOFT-GEM,通過引入軟約束變量平衡新舊任務損失,使用A-GEM的改進版A-A-GEM求取當前任務梯度和情景記憶梯度平均值進行梯度更新。實驗結果表明,雖然-SOFT-GEM在計算效率和內存節省的性能相對GEM有所提高,但是隨著任務量增多,相比EWC和SI方法,-SOFT-GEM對過去知識遺忘增量更高。Farajtabar等人[38]通過約束梯度更新方向提出正交梯度下降(orthogonal gradient descent,OGD)方法,通過梯度空間正交存儲任務梯度防止遺忘,但由于模型容量限制,隨著任務增加依然會加速模型遺忘。
梯度正則化通過計算存儲的部分過去數據來約束當前任務的梯度更新方向,具有良好的穩定性,應用于圖像分類[39]相關領域。
2.1.3 知識蒸餾
知識蒸餾(knowledge distillation,KD)[40]用于圖像分類任務,采用教師網絡指導學生網絡實現知識遷移和模型壓縮。傳統深度神經網絡主要使用softmax作為輸出層函數,而知識蒸餾在此基礎上引入了溫度系數T的softmax函數值si:
T值越大,softmax的輸出概率分布更趨于平滑,提高了模型對知識的“容忍度”。
利用知識蒸餾中保持模型間的一致特性[41],知識蒸餾策略通過凍結舊模型作為教師網絡對新任務和舊任務模型的輸出進行約束,使模型學習新數據的輸出時與舊模型保持一致,并將舊模型包含的知識引入到新模型防止遺忘。根據知識蒸餾約束范圍分為局部蒸餾和全局蒸餾,在局部蒸餾研究中,文獻[42]提出不忘學習的知識蒸餾方法(learning without forgetting,LwF)。舊模型作為教師網絡,對部分新任務數據進行標注,作為舊任務數據偽標簽,通過偽標簽約束模型參數更新實現知識蒸餾。LwF算法代碼如下所示:
LwF知識蒸餾方法也存在一定的局限性:a)為了保持舊任務性能,目標模型在約束下模仿舊模型輸出學習新任務,對新樣本提供正則化約束,但阻礙對新任務的適應能力;b)當模型長時間學習不同領域任務流時,舊任務性能下降,因為舊任務的損失根據新數據計算得到,而新數據的分布與舊數據有較大的差異,這會導致隨著任務流的學習,模型對舊任務性能呈現不斷下降的趨勢。
鑒于LwF的局限性,文獻[43]提出多任務終身學習蒸餾適應算法(adaptation by distillation,AbD)。AbD針對每一個新任務進行單獨訓練,通過知識蒸餾將新舊模型的知識提煉為一個學生模型,保留舊任務數據的部分特征子集以減少遺忘。AbD使模型能更好地適應訓練新任務,并使用少量的過去數據子集回顧過去知識;然而這種方法隨著模型對連續任務流的學習會出現新舊類不平衡的問題。針對這一問題,文獻[44]通過余弦歸一化(類別不平衡)、less-forget約束(蒸餾損失保留舊類的重要特征參數)以及類分離(對新舊類進行差異化處理)三種算法減輕新舊類不平衡所造成的影響,并結合三種約束算法平衡訓練過程,保留過去任務知識。
不同于上述方法,Castro等人[45]結合交叉熵學習新類,蒸餾損失保留舊類知識,使用特征內存存儲節省內存空間。另外,Xiang等人[46]提出動態修正向量算法解決知識蒸餾偏差和模型過擬合問題。文獻[47]采用權重調整(weight aligning,WA)平衡新舊類知識權重,并結合KD方法保持對舊類的辨別。
由于局部蒸餾對每個過去任務知識進行蒸餾整合,局部蒸餾不能很好地提取不同任務類,而全局蒸餾是對所有任務知識進行蒸餾克服了該缺點。在全局蒸餾研究中,Lee等人[48]對舊模型和現有模型進行整合并提出了全局蒸餾(global distillation,GD),舊數據的一小部分知識被保留下來,這在一定程度上提升了模型的穩定性,但降低了新任務的學習效率。使用無標簽外部數據集是近年來一種很有前途的持續學習研究方法,文獻[49]提出深度模型整合(deep model consolidation,DMC)的持續學習方法。與GD類似,DMC在外部無標簽數據的輔助下將新舊模型蒸餾整合成后續訓練的舊模型,克服無法獲得原始訓練數據的困難,減少了對舊類知識的遺忘,使模型即使在原始訓練數據不可用時也能工作。雖然GD和DMC為新任務訓練模型取得了較好的效果,但存在整合模型容量會隨著不同類任務的增加而增大的問題。
此外,文獻[50~54]也將知識蒸餾應用在求解災難性遺忘問題上,知識蒸餾不僅對知識進行遷移,還能約束過去任務參數改變,緩解災難性遺忘;同時,其網絡設計復雜度較低,可應用于圖像分類和檢測等相關的工業領域,如音頻檢測[55]、虛假媒體檢測[56]等。但蒸餾網絡的性能還取決于數據集大小、任務量以及過去任務數據存儲[57]等因素。
2.2 重放策略
重放策略是在訓練數據層面的重放,利用隨機存儲的過去任務經驗(即經驗重放)或是利用生成模型生成與過去任務經驗相似的偽數據 (即生成式重放)。經驗重放和生成式重放策略通過回顧過去知識緩解災難性遺忘問題。
2.2.1 經驗重放
經驗重放興起于深度強化學習領域[58],在學習過程中,agent保存過去經驗,在未來的探索中遇到相關或相近的物體時,利用經驗重放提升學習效率。
經驗重放策略對過去任務特征參數進行隨機少量存儲,在新任務訓練過程中,將過去任務特征加入到當前任務共同訓練實現回顧過去知識來防止遺忘[59]。在這項研究中,Chaudhry等人[60]提出后視錨學習(hindsight anchor learning,HAL)方法,利用圖像空間的梯度上升構建具有代表性的任務錨點,通過對預測器優化保持過去任務錨點的預測不變性,從而保持模型過去任務的性能。類似地,Qiang等人[61]在聚類方法中增加情景記憶模塊和稀疏終身學習經驗重放模塊,提出終身學習方法(lifelong learning augmented short text,LAST)來增強短文本流聚類能力,通過經驗重放模塊以一定的時間間隔對情景記憶中的相關文本進行采樣。值得注意的是,對過去任務的重放導致模型對新任務的學習產生漂移。Rolnick等人[62]提出在回放中引入off-policy和行為克隆改善模型可塑性—穩定性困境,同時在經驗重放過程中增加兩個額外的損失項誘導網絡與過去模型之間的行為克隆,防止網絡對重放任務的輸出在學習新任務時產生漂移。此外,Isele等人[63]提出基于排序的重放方法對過去經驗進行排序,通過增設排序函數,選擇重要的過去經驗存儲在長期記憶中,并刪除不重要的過去經驗,設置FIFO緩沖器存儲新經驗。
文獻[64~68]針對經驗重放策略提出了不同的方式方法。經驗重放通過直接或者間接存儲過去任務數據作為緩解遺忘的方法在記憶保留上有較大的優勢,可應用于圖像分類和檢測等相關的工業領域如自動駕駛目標檢測[68]、醫療預測[69]等;同時,隨著任務量增多,所需要重放的情景記憶隨之增加,這將會增加舊任務學習負擔而降低新任務學習效率。由于生成對抗網絡的發展,通過生成模型生成過去經驗的重播方式成為更多研究者關注的熱點。
2.2.2 生成式重放
在大腦學習機制中,避免災難性遺忘主要靠大腦中海馬體和新皮質層[70]兩個獨立區域。海馬體將經歷存儲到聯想記憶網絡,并將經歷的事件生成式地重述給新皮質層,新皮質層新舊記憶交織整合存儲[71]。受此啟發,Shin等人[72]提出深度生成重放(deep generative replay,DGR)的持續學習模型,是由生成器和求解器模型組成的協作結構,求解器利用生成器生成的過去任務偽數據解決相對應的任務,而生成器則采用WGAN-GP 的方式保證生成的偽數據能盡量靠近真實數據,DGR雖然無須存儲過去經驗,但訓練過程中需要生成大量過去偽數據并加入到當前任務中進行再訓練,降低了訓練效率。文獻[73]提出基于人工神經網絡的經驗生成式重放(generative replay,GR)變體,如圖6所示。GR變體包含一個分類模型M和一個用于生成過去經驗的生成器模型G,與DGR不同的是GR變體采用變分自編碼(variational auto encoder,VAE)[74],VAE為每個樣本構造一個專屬的正態分布,然后采樣重構,因此GR變體生成固定少量數據實現較高識別準確率。
文獻[75~81]提出不同的生成式重放方法,通過訓練生成模型作為過去數據的生成器而緩解遺忘的策略,在較低的內存占用率的情況下仍具有較高的穩定性,可應用于圖像分類、語義分割和自然語言處理等相關工業領域,如文本數據處理[82]等。但過去任務性能在很大程度又由生成模型決定,同時模型生成過去任務需耗費大量時間,不利于生產實踐。
2.3 動態架構策略
動態架構策略在網絡架構層面的擴展或重用,通過自適應擴展網絡層或覆蓋不重要神經元容納新任務知識以減少模型重要參數改變而緩解遺忘,利用網絡參數共享可提升新任務學習效率。
漸進式神經網絡(progressive neural network,PNN)[83]作為最早的持續學習動態架構策略之一,如圖7所示。學習新任務時,PNN構建一個與過去任務相關聯的多層神經網絡模型,并固定過去任務模型以保持模型在舊任務上的表現,新模型在構建之初通過吸收過去任務模型對應參數作為額外參數發展新技能。與之類似,ExpertGate網絡模型[84]通過自動編碼器捕獲訓練樣本的共有特征,識別與新任務相似的樣本,并為新任務匹配與新樣本相似度高的專家網絡作為初始網絡進行訓練,經過訓練后的網絡成為一個新的專家網絡。
無論是PNN還是ExpertGate都是為新任務構建一個新的網絡并保持過去網絡架構實現持續學習,這種方式下,模型容量會隨著任務量的增加而不斷增加,不適合應用于大量的連續性任務。通過對不重要的神經元和網絡層進行修剪降低網絡容量,Golkar等人[85]提出神經剪枝持續學習計算神經元的平均活動,找到模型網絡學習過程中重復使用的部分,將其定性為重要神經元并施加保護;而不活躍的神經元被重新分配用于新任務學習,通過干涉權重和自由權重實現參數共享以提高新任務學習效率。與之不同的是,SpaceNet[86]采用固定模型容量進行自適應稀疏性訓練而實現持續學習。在學習新任務時,模型為新任務分配不重要的神經元并建立稀疏連接,部分神經元被保留為該任務的特定神經元,而其他神經元根據其重要性與其他任務共享,用于未來任務的學習并減少任務之間的干擾,同時重要神經元的稀疏自適應訓練為未來任務學習節省了更多空間。
此外,文獻[87~92]提出了不同的持續學習動態架構策略,動態架構策略具備良好參數共享性及神經元自適應利用性,可應用于圖像分類[82]等相關領域。但其本身需要一定的模型容量容納任務流知識,所以在大量任務流中學習存在局限性。
2.4 聯合策略
聯合策略通過結合不同策略優勢,從不同層面優化災難性遺忘問題。蒸餾適應方法(AbD)[43]通過結合知識蒸餾和經驗重放兩種技術,約束穩定性與可塑性平衡點。AbD中的目標模型通過專家網絡進行知識提煉適應新任務,通過緩存小部分舊任務數據以保持對舊任務性能,更好地適應新任務。與之類似,增量分類器和表示學習(incremental classifier and representation learning,iCaRL)[93]方法通過結合經驗重放和知識蒸餾將過去樣本范例以圖像的方式存儲,并利用蒸餾正則化器提煉保留舊知識以緩解災難性遺忘。知識蒸餾與經驗重放結合一方面緩解蒸餾對軟標簽監督不足的問題,另一方面通過提煉過去經驗緩解內存壓力。與之不同的是,Zhai等人[94]在生成式重播策略中引入知識蒸餾,提出基于Bicycle GAN[95]模型的終身GAN持續學習方法,通過Montage和Swap操作從當前數據中生成輔助數據進行蒸餾。訓練過程由模型Mt訓練當前任務t,終身GAN在給定輔助數據作為輸入的情況下,通過生成網絡和對抗網絡產生相似的輸出值以提取出訓練網絡中的信息,并提煉到新的網絡,這使得在持續學習環境中能夠執行圖像條件生成任務。類似地,文獻[96]提出生成特征重放的持續學習方法,通過設置Wasserstein GAN作為特征生成器對過去任務進行特征重放代替圖像重放,并與特征提取器的特征蒸餾結合,降低模型對內存的要求,提高模型對新任務的學習能力。
表1為不同聯合策略方法災難性遺忘能力的對比,可以發現多數聯合策略都與知識蒸餾策略相結合,主要是因為知識蒸餾不僅能提升模型訓練效率、減少空間消耗,同時知識蒸餾中軟標簽能對過去知識進行存儲和轉移。
3 CF評價指標
結合持續學習研究現狀,本文從平均準確度、最大遺忘度、知識逆向遷移和知識正向遷移四個方面總結了四個持續學習評價指標。
4 CF求解策略性能對比及總結
4.1 CF求解策略性能對比
基于文獻[4,57]的CL策略實驗總結以及CF求解策略分析,針對正則化策略、重放策略、動態架構策略的穩定性(反映模型保留舊知識的能力)、輕量化程度(模型學習任務對內存空間及模型容量綜合度量)、計算效率(反映模型訓練的總體速度)三個方面進行分級(Ⅰ、Ⅱ、Ⅲ)對比分析,其中等級越高,代表該性能越強。
a)權重正則化。利用存儲的少量過去任務數據計算并保護重要權重參數而減緩遺忘,在輕量化程度和計算效率相對其他方法更有優勢;其穩定性因模型僅通過對過去部分重要權重進行約束而處于劣勢。
b)梯度正則化。通過約束新任務學習梯度方向與情景計算的梯度方向正內積防止遺忘,因此過去數據的存儲一方面會提升穩定性,另一方面會占用一定內存空間,同時情景記憶的梯度計算會影響計算效率,輕量化程度和計算效率弱于權重正則化。
c)知識蒸餾。通過舊模型約束新模型輸出,將過去知識提煉至新模型中。由于使用雙模型結構,并將過去任務模型作為教師模型,其穩定性、輕量化程度、計算效率在幾種策略中較為均衡。
d)經驗重放。通過對過去任務知識以一定形式存儲并加入到新任務學習緩解遺忘。模型結構僅需增加過去數據的存儲與加載模塊,因此其輕量化程度較高; 由于過去數據的存儲與計算,其穩定性和計算效率與知識蒸餾相差無幾。
e)生成式重放。通過生成過去任務偽數據并加入到當前任務中學習回顧過去知識。由于生成式重放策略訓練前使用生成模型生成大量的過去數據加入到當前任務進行訓練,在計算效率上存在劣勢,但生成模型生成的過去數據有利于新模型保持穩定性。雙模型結構輕量化程度與知識蒸餾策略相當。
f)動態架構策略。通過約束過去任務的網絡架構自適應擴展網絡層或覆蓋不重要的神經元容納新任務知識。而模型擴增受限于內存容量,因此動態架構策略在輕量化程度相對其他方法有較大劣勢。量化對比如表2所示,可視化對比如圖8所示。
4.2 CF求解策略實驗分析
表3給出了部分CF求解策略在CIFAR-100數據集中的部分實驗結果,從表3可以看出:a)在相同數據集下,生成式重放、梯度正則化和動態架構策略具有較高的精度,這與CF求解策略所分析對比結果相當;b)通過聯合各種策略優勢以及結合元學習等其他機器學習方法能一定程度上彌補單種CF求解策略的不足,提升模型穩定性。
通過分析相關文獻,CF求解策略研究對多重順序任務環境設置有較多的涉足,并且所采用數據集均為綜合類數據集(如MNIST、CIFAR-100等)。持續學習作為一種面向非平穩數據流的特殊機器學習范例,模型訓練要求數據集囊括多種類別滿足模型在不同場景下持續學習新任務的能力。通過對現有文獻總結發現,現階段持續學習研究主要使用以下綜合類數據集和功能性數據集:
a)綜合類數據集。囊括多種類別圖像的數據集,滿足持續學習研究中連續順序任務設置的要求,如MNIST、CIFAR-100、CORe50、ImageNet等綜合類數據集。
b)功能性數據集。只包含針對某種特定功能種類的數據集,如CompCars 包含有汽車最大速度、里程等屬性,用于車輛細粒度屬性持續檢測;CUHK03由監控拍攝的帶標簽行人圖像組成,用于行人持續目標檢測;KTH和UCSD由不同場景下的行人行為視頻組成,應用于行人異常行為持續檢測。
5 CL應用研究
隨著人工智能技術的發展,傳統深度神經網絡單一的訓練模式難以適應更為貼近現實應用的非平穩數據流的學習。對于現階段持續學習在工業領域的應用,主要是將持續學習算法與功能模型結合以適應多任務多場景變化。
圖9為持續學習應用場景的一般框架,持續學習方法作為一種輔助手段,通過結合如目標檢測等功能性模型,使其具備一定的災難性遺忘抵抗能力來執行非平穩數據流任務,并能在學習過程中不斷積累并轉移知識。在持續學習的應用中,此部分重點介紹視覺計算、自主機器人等常見的持續學習應用領域。
5.1 視覺計算
視覺計算作為持續學習應用最廣泛的領域,各種持續學習策略研究基本都是以連續視覺識別任務作為評測任務。在語義分割領域,卷積神經網絡提高了語義分割的能力,但傳統模型中,所有類都事先已知并只能進行一次性學習[106],然而這種設置在實際應用中相當有限。在現實場景中,一種能不斷學習新類,并能保持舊任務性能的持續語義分割逐漸成為一個新興趨勢[107]。然而,實現持續語義分割面臨兩個重要挑戰,第一個是災難性遺忘問題,以前所學會的舊類會在學習新類過程中被遺忘;第二個問題是背景類的語義轉移。在傳統的語義分割場景中,背景包含不屬于任何其他類的像素;而在持續語義分割中,背景包含不屬于任何當前類的像素,更通俗地講,持續語義分割需要區分真實背景類和舊類像素,避免災難性遺忘[108]。Douillard等人[109]提出多尺度池化蒸餾方法,在特征層次上保持長期和短期的空間關系,并針對背景像素問題將舊類的像素作為偽背景,同時,設計基于置信的偽標記策略標記舊類的背景像素,該策略在學習新類過程中能有效區別舊類的背景像素和真實背景像素,避免對舊類的災難性遺忘。
在視覺監控領域,文獻[110]提出基于持續學習和動態樣本集模塊長期跟蹤框架來解決跟蹤目標外形變化而導致跟蹤目標丟失的問題。Doshi等人[111]結合遷移學習提出視頻監控在線異常檢測方法,由遷移學習的特征提取模塊和統計決策模塊組成,特征提取模塊減輕訓練復雜度,并提取運動、位置和外觀特征;統計決策模塊作為序列異常檢測器,在數秒內使用新標簽增量更新模型。
5.2 自主機器人
隨著全球機器人市場規模不斷擴大,機器人技術正在從機器人3.0時代邁向機器人4.0時代,不僅要求機器人具備感知和智能協作能力,還要求其在面對不斷變化的現實環境具備理解和決策的能力,最終實現自主服務。持續學習發展使得自主機器人的實現成為可能。在這項工作中,Chen[112]為探討與自組織動力學相關的問題將可塑性學習系統應用于蛇形機器人的運動控制,該蛇形機器人八關節的運動由人工神經分子(artificial nerve molecule,ANM)系統控制,ANM模型能夠以自組織的學習方式完成所分配的任務。同樣地,Kobayashi等人[113]設計一個課程范例建立對四足機器人的控制,利用EWC保留已學習到與任務相關的知識,并通過分層任務學習將機器的學習過程分為第一階段的肢體自下而上的運動學習和第二階段的行走/轉彎行為學習。
持續學習作為一種能適應不斷變化的現實環境并能不斷學習新知識且不忘舊知識的前沿機器學習范例,除了上述常見應用外,在缺陷檢測[114,115]、自然語言處理[82]以及機器翻譯[116]等眾多領域都有應用。
6 展望
持續學習作為前沿機器學習范例,能在非平穩數據流中不斷學習新任務,保持對舊任務性能,現階段持續學習研究仍處于萌芽階段,僅在一定程度上減緩災難性遺忘。在今后持續學習研究中,可從以下幾方面進行思考:
a)針對持續學習現有挑戰的可解釋性新理論。模型學習新任務時不可避免地面臨災難性遺忘、數據分布變化和知識存儲問題,目前針對新任務的學習會造成何種知識被遺忘、該知識是如何被遺忘、如何避免這種遺忘、數據流是以何種方式變化、能否對這種變化進行建模使學習模型在學習過程中適應新的變化等問題的理論解釋研究存在空缺。對遺忘機理、數據分布變化機理以及知識存儲機理進行可解釋性理論研究將會對持續學習發展作出重要貢獻。
b)復雜場景下的任務數據流分布變化檢測新方法。持續學習模型在面對動態變化的數據流,一個未被發現的變化將會導致遺忘,研究復雜場景模型數據分布變化檢測方法并建立新數據和新任務影響下的數據修復方法,避免對非相關技能或知識的災難性干擾是一個值得研究的重要課題。
c)研究復雜場景下的知識存儲新方法。模型在不斷的學習過程中,需要直接或間接地存儲過去數據以保持過去任務性能。研究復雜場景下的模型記憶方法,構建新舊任務特征關聯記憶方法并建立模型記憶退化檢測方法,防止模型關鍵神經元或特征網絡層退化產生遺忘。
d)結合強化學習等前沿機器學習技術,研究克服現有挑戰的持續學習新模型。現有強化學習、小樣本學習、遷移學習和元學習等前沿機器學習技術具有各自優勢,結合多種現有前沿機器學習技術,以優化持續學習各項性能的持續學習新模型,例如,通過結合強化學習提升持續學習環境適應及主動學習能力; 結合小樣本學習解決持續學習過程中樣本量不足的問題; 結合遷移學習解決持續學習過程中知識遷移問題; 結合元學習提升持續學習的學習效率。
e)拓展持續學習應用新領域。拓展持續學習應用研究是實現工業應用的重要研究方向,如研究復雜環境下具有記憶過去任務特征,能將過去任務技能運用于解決當前任務并不斷學習新技能的自主交互式機器人; 或是考慮不同天氣、車流、地點等復雜環境下研究具備3D多目標檢測持續學習能力的無人駕駛技術。
f)研究精細化持續學習評估指標,健全持續學習評估體系。基于現有評估標準,研究模型學習新任務對模型容量大小增長、任務記憶效率以及過去任務總體性能影響的評估標準并結合現有標準進行CL策略的綜合性實驗評估,促進持續學習發展。
7 結束語
近年來,隨著持續學習成為一個新的研究熱點,越來越多的研究者深入持續學習災難性遺忘問題求解策略研究中。
災難性遺忘是模型在學習新任務時對過去任務性能表現下降的現象,通過對災難性遺忘機理的研究發現,模型參數的改變是導致遺忘產生的主要原因。基于此,本文在模型參數、任務數據和網絡架構三個層面對持續學習災難性遺忘問題的求解策略展開研究,即:a)通過模型參數層面的正則化策略(權重正則化、梯度正則化和知識蒸餾)約束模型參數在新任務學習時的變化;b)通過任務數據層面的重放策略(經驗重放和生成式重放)在新任務學習時重放過去數據;c)通過網絡架構層面的動態架構策略擴展或重用神經元。此外,研究還發現通過聯合不同策略或機器學習方法的各自優勢在一定程度上能進一步減緩遺忘的發生。上述幾種策略的研究,其目的最終都是保證模型具備完成執行舊任務的模型參數。
參考文獻:
[1]McCloskey M,Cohen N J. Catastrophic interference in connectionist networks: the sequential learning problem [J]. Psychology of Learning and Motivation,1989,24: 109-165.
[2]Abraham W C,Robins A. Memory retention: the synaptic stability versus plasticity dilemma [J]. Trends in Neurosciences,2005,28(2): 73-78.
[3]Belouadah E,Popescu A,Kanellos I. A comprehensive study of class incremental learning algorithms for visual tasks [J]. Neural Networks,2021,135(3): 38-54.
[4]De Lange M,Aljundi R,Masana M,et al. A continual learning survey: defying forgetting in classification tasks [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2022,44(7): 3366-3385.
[5]Parisi G I,Kemker R,Part J L,et al. Continual lifelong learning with neural networks: a review[J]. Neural Networks,2019,113(5): 54-71.
[6]Hadsell R,Rao D,Rusu A A,et al. Embracing change: continual learning in deep neural networks [J]. Trends in Cognitive Sciences,2020,24(12): 1028-1040.
[7]Peng Can,Zhao Kun,Lovell B C. Faster ILOD: incremental learning for object detectors based on Faster RCNN [J]. Pattern Recognition Letters,2020,140(12): 109-115.
[8]Lomonaco V,Maltoni D,Pellegrini L. Fine-grained continual learning [EB/OL].(2020-04-21).https://arxiv.org/pdf/1907.03799v1.pdf.
[9]Lesort T,Stoian A,Goudou J,et al. Training discriminative models to evaluate generative ones [C]// Proc of the 28th International Confe-rence on Artificial Neural Networks.Cham:Springer,2019:604-619.
[10]Domingos P,Hulten G. Mining high-speed data streams [C]// Proc of the 6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press,2000: 71-80.
[11]Widmer G,Kubat M. Effective learning in dynamic environments by explicit context tracking [C]// Proc of European Conference on Machine Learning. Berlin: Springer,1993: 227-243.
[12]Tsymbal A. The problem of concept drift: definitions and related work [EB/OL]. (2004-04-29). https://www.scss.tcd.ie/publications/tech-reports/reports.04/TCD-CS-2004-15.pdf.
[13]Gama J,liobaité I,Bifet A,et al. A survey on concept drift adaptation [J]. ACM Computing Surveys,2014,46(4):article No.44.
[14]Kuncheva L I. Classifier ensembles for changing environments [C]// Proc of the 5th International Workshop on Multiple Classifier Systems. Berlin: Springer,2004: 1-15.
[15]Aljundi R,Babiloni F,Elhoseiny M,et al. Memory aware synapses: learning what (not) to forget [C]// Proc of the 15th European Conference on Computer Vision. Cham: Springer,2018: 144-161.
[16]Chaudhry A,Dokania P K,Ajanthan T,et al. Riemannian walk for incremental learning: understanding forgetting and intransigence [C]// Proc of the 15th European Conference on Computer Vision. Cham: Springer,2018: 556-572.
[17]Awasthi A,Sarawagi S. Continual learning with neural networks: a review [C]// Proc of the ACM India Joint International Conference on Data Science and Management of Data. New York: ACM Press,2019: 362-365.
[18]Thompson B,Gwinnup J,Khayrallah H,et al. Overcoming catastro-phic forgetting during domain adaptation of neural machine translation [C]// Proc of Annual Conference of the North American Chapter of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2019: 2062-2068.
[19]Zenke F,Poole B,Ganguli S. Continual learning through synaptic intelligence [C]// Proc of the 34th International Conference on Machine Learning. 2017: 3987-3995.
[20]Liu Xialei,Masana M,Herranz L,et al. Rotate your networks: better weight consolidation and less catastrophic forgetting [C]// Proc of the 24th International Conference on Pattern Recognition. Piscata-way,NJ: IEEE Press,2018: 2262-2268.
[21]Amer M,Maul T. Reducing catastrophic forgetting in modular neural networks by dynamic information balancing [EB/OL]. (2019-12-10). https://arxiv.org/pdf/1912.04508.pdf.
[22]Schwarz J,Czarnecki W,Luketina J,et al. Progress amp; compress: a scalable framework for continual learning [C]// Proc of the 35th International Conference on Machine Learning. 2018: 4528-4537.
[23]Jung S,Ahn H,Cha S,et al. Adaptive group sparse regularization for continual learning [EB/OL]. (2021-05-29). https://arxiv.org/pdf/2003.13726v1.pdf.
[24]Pomponi J,Scardapane S,Lomonaco V,et al. Efficient continual learning in neural networks with embedding regularization [J]. Neurocomputing,2020,397(7): 139-148.
[25]Jung H,Ju J,Jung M,et al. Less-forgetful learning for domain expansion in deep neural networks [C]// Proc of the 32nd AAAI Confe-rence on Artificial Intelligence. Pola Alto,CA: AAAI Press,2018: 3358-3365.
[26]Bui T D,Ravi S,Ramavajjala V. Neural graph machines: learning neural networks using graphs [EB/OL]. (2017-03-14). https://arxiv.org/pdf/1703.04818.pdf.
[27]Chang Yifan,Li Wenbo,Peng Jian,et al. Memory protection generative adversarial network (MPGAN): a framework to overcome the forgetting of GANs using parameter regularization methods [J]. IEEE Access,2020,8: 179942-179954.
[28]Ororbia A,Mali A,Giles C L,et al. Continual learning of recurrent neural networks by locally aligning distributed representations [J]. IEEE Trans on Neural Networks and Learning Systems,2020,31(10): 4267-4278.
[29]Maltoni D,Lomonaco V. Continuous learning in single-incremental-task scenarios [J]. Neural Networks,2019,116(8): 56-73.
[30]Parshotam K,Kilickaya M. Continual learning of object instances [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 224-225.
[31]Hayes T L,Kanan C. Lifelong machine learning with deep streaming linear discriminant analysis [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 220-221.
[32]Mirzadeh S I,Farajtabar M,Ghasemzadeh H. Dropout as an implicit gating mechanism for continual learning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 232-233.
[33]Maschler B,Vietz H,Jazdi N,et al. Continual learning of fault prediction for turbofan engines using deep learning with elastic weight consolidation [C]// Proc of the 25th IEEE International Conference on Emerging Technologies and Factory Automation. Piscataway,NJ: IEEE Press,2020: 959-966.
[34]Tercan H,Deibert P,Meisen T. Continual learning of neural networks for quality prediction in production using memory aware synapses and weight transfer [J]. Journal of Intelligent Manufacturing,2022,33(1): 283-292.
[35]Lopez-Paz D,Ranzato M. Gradient episodic memory for continual learning [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2017: 6470-6479.
[36]Chaudhry A,Ranzato M,Rohrbach M,et al. Efficient lifelong learning with A-GEM [EB/OL]. (2018-12-02). https://arxiv.org/pdf/1812.00420v1.pdf.
[37]Hu Guannan,Zhang Wu,Ding Hu,et al. Gradient episodic memory with a soft constraint for continual learning [EB/OL]. (2020-11-16). https://arxiv.org/pdf/2011.07801.pdf.
[38]Farajtabar M,Azizan N,Mott A,et al. Orthogonal gradient descent for continual learning [C]// Proc of the 23rd International Conference on Artificial Intelligence and Statistics. 2020: 3762-3773.
[39]Tang Shixiang,Chen Dapeng,Zhu Jinguo,et al. Layerwise optimization by gradient decomposition for continual learning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2021: 9634-9643.
[40]Hinton G,Vinyals O,Dean J. Distilling the knowledge in a neural network [EB/OL]. (2015-03-09). https://arxiv.org/pdf/1503.02531.pdf.
[41]張曉冰,龔海剛,劉明. 基于一致性正則化的在線知識蒸餾 [J]. 計算機應用研究,2021,38(11): 3249-3253. (Zhang Xiaobing,Gong Haigang,Liu Ming. OKDCR: online knowledge distillation via consistency regularization [J]. Application Research of Compu-ters,2021,38(11): 3249-3253.)
[42]Li Zhizhong,Hoiem D. Learning without forgetting [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2017,40(12): 2935-2947.
[43]Hou Saihui,Pan Xinyu,Loy C C,et al. Lifelong learning via progressive distillation and retrospection [C]// Proc of the 15th European Conference on Computer Vision. Cham: Springer,2018: 452-467.
[44]Hou Saihui,Pan Xinyu,Loy C C,et al. Learning a unified classifier incrementally via rebalancing [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 831-839.
[45]Castro F M,Marín-Jiménez M J,Guil N,et al. End-to-end incremental learning [C]// Proc of the 15th European Conference on Computer Vision. Cham: Springer,2018: 241-257.
[46]Xiang Yun,Miao Yongbiao,Chen Jingyin,et al. Efficient incremental learning using dynamic correction vector [J]. IEEE Access,2020,8: 23090-23099.
[47]Zhao Bowen,Xiao Xi,Gan Guojun,et al. Maintaining discrimination and fairness in class incremental learning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 13208-13217.
[48]Lee K,Lee K,Shin J,et al. Overcoming catastrophic forgetting with unlabeled data in the wild [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 312-321.
[49]Zhang Junting,Zhang Jie,Ghosh S,et al. Class-incremental learning via deep model consolidation [C]// Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway,NJ: IEEE Press,2020: 1131-1140.
[50]Mao Fubing,Weng Weiwei,Pratama M,et al. Continual learning via inter-task synaptic mapping [J]. Knowledge-Based Systems,2021,222(6): 106947.
[51]Lomonaco V,Desai K,Culurciello E,et al. Continual reinforcement learning in 3D non-stationary environments [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 248-249.
[52]Zhao Bowen,Xiao Xi,Gan Guojun,et al. Maintaining discrimination and fairness in class incremental learning [C]// Procs of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 13208-13217.
[53]Javed K,Shafait F. Revisiting distillation and incremental classifier learning [C]// Proc of Asian Conference on Computer Vision. Berlin: Springer,2018: 3-17.
[54]Choi J,Baik S,Choi M,et al. Visual tracking by adaptive continual meta-learning [J]. IEEE Access,2022,10: 9022-9035.
[55]Ma Haoxin,Yi Jiangyan,Tao Jianhua,et al. Continual learning for fake audio detection [EB/OL]. (2021-04-15). https://arxiv.org/pdf/2104.07286.pdf.
[56]Kim M,Tariq S,Woo S S. CoReD: generalizing fake media detection with continual representation using distillation [C]// Proc of the 29th ACM International Conference on Multimedia. New York: ACM Press,2021: 337-346.
[57]Belouadah E,Popescu A,Kanellos I. A comprehensive study of class incremental learning algorithms for visual tasks [J]. Neural Networks,2021,135(3): 38-54.
[58]Fang Meng,Li Yuan,Cohn T. Learning how to active learn: a deep reinforcement learning approach [C]// Proc of Conference on Empiri-cal Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2017: 595-605.
[59]Chaudhry A,Rohrbach M,Elhoseiny M,et al. On tiny episodic memories in continual learning [EB/OL]. (2019-06-04). https://arxiv.org/pdf/1902.10486.pdf.
[60]Chaudhry A,Gordo A,Dokania P,et al. Using hindsight to anchor past knowledge in continual learning [C]// Proc of the 35th AAAI Conference on Artificial Intelligence. Pola Alto,CA: AAAI Press,2021: 6993-7001.
[61]Qiang Jipeng,Xu Wanyin,Li Yun,et al. Lifelong learning augmented short text stream clustering method [J]. IEEE Access,2021,9: 70493-70501.
[62]Rolnick D,Ahuja A,Schwarz J,et al. Experience replay for continual learning [C]// Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2019: 350-360.
[63]Isele D,Cosgun A. Selective experience replay for lifelong learning [C]// Proc of the 32nd AAAI Conference on Artificial Intelligence. Pola Alto,CA: AAAI Press,2018: 3302-3309.
[64]Gepperth A,Karaoguz C. A bio-inspired incremental learning architecture for applied perceptual problems [J]. Cognitive Computation,2016,8(5): 924-934.
[65]Hayes T L,Cahill N D,Kanan C. Memory efficient experience replay for streaming learning [C]// Proc of International Conference on Robotics and Automation.Piscataway,NJ:IEEE Press,2019:9769-9776.
[66]Korycki L,Krawczyk B. Class-incremental experience replay for continual learning under concept drift [C]// Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2021: 3649-3658.
[67]Kiyasseh D,Zhu Tingting,Clifton D. A clinical deep learning framework for continually learning from cardiac signals across diseases,time,modalities,and institutions [J]. Nature Communications,2021,12(1): article No.4221.
[68]Shieh J L,Haq Q M U,Haq M A,et al. Continual learning strategy in one-stage object detection framework based on experience replay for autonomous driving vehicle [J]. Sensors,2020,20(23): 6777.
[69]Amrollahi F,Shashikumar S P,Holder A L,et al. Leveraging clinical data across healthcare institutions for continual learning of predictive risk models [J]. Scientific Reports,2022,12(1): article No.8380.
[70]McClelland J L,McNaughton B L,OReilly R C. Why there are complementary learning systems in the hippocampus and neocortex: insights from the successes and failures of connectionist models of learning and memory [J]. Psychological Review,1995,102(3): 419-457.
[71]Nadel L,Winocur G,Ryan L,et al. Systems consolidation and hippocampus: two views [J]. Debates in Neuroscience,2007,1(3): 55-66.
[72]Shin H,Lee J K,Kim J,et al. Continual learning with deep generative replay [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2017: 2994-3003.
[73]Van De Ven G M,Siegelmann H T,Tolias A S. Brain-inspired replay for continual learning with artificial neural networks [J]. Nature Communications,2020,11(1): article No.4069.
[74]Kingma D P,Welling M. Auto-encoding variational Bayes [EB/OL]. (2013-12-20). https://arxiv.org/pdf/1312.6114.pdf.
[75]Kim J,Kim J,Kwak N. StackNet: stacking feature maps for continual learning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:242-243.
[76]Stoianov I,Maisto D,Pezzulo G. The hippocampal formation as a hie-rarchical generative model supporting generative replay and continual learning[J].Progress in Neurobiology,2022,217(10):1023290.
[77]Sukhov S,Leontev M,Miheev A,et al. Prevention of catastrophic interference and imposing active forgetting with generative methods [J]. Neurocomputing,2020,400(8): 73-85.
[78]Li Chunmao,Li Yang,Zhao Yinliang,et al. SLER: self-generated long-term experience replay for continual reinforcement learning [J]. Applied Intelligence,2021,51(1): 185-201.
[79]Rao D,Visin F,Rusu A A,et al. Continual unsupervised representation learning [C]// Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2019: 7647-7657.
[80]Atkinson C,McCane B,Szymanski L,et al. Pseudo-rehearsal: achieving deep reinforcement learning without catastrophic forgetting [J]. Neurocomputing,2021,428(3): 291-307.
[81]Batbaatar E,Park K H,Amarbayasgalan T,et al. Class-incremental learning with deep generative feature replay for DNA methylation-based cancer classification [J]. IEEE Access,2020,8: 210800-210815.
[82]Choi H,Kang P. Lifelong language learning with the most forgotten knowledge [J]. IEEE Access,2021,9: 57941-57948.
[83]Rusu A A,Rabinowitz N C,Desjardins G,et al. Progressive neural networks [EB/OL]. (2016-06-15). https://arxiv.org/pdf/1606.04671.pdf.
[84]Aljundi R,Chakravarty P,Tuytelaars T. Expert gate: lifelong learning with a network of experts [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society,2017: 3366-3375.
[85]Golkar S,Kagan M,Cho K. Continual learning via neural pruning [EB/OL].(2019-03-11).https://arxiv.org/pdf/1903.04476.pdf.
[86]Sokar G,Mocanu D C,Pechenizkiy M. SpaceNet: make free space for continual learning [J]. Neurocomputing,2021,439(6): 1-11.
[87]Zhu Qiuyu,He Zikuang,Ye Xin. Incremental classifier learning based on PEDCC-loss and cosine distance [J]. Multimedia Tools and Applications,2021,80(11): 33827-33841.
[88]Zacarias A,Alexandre L A. SeNA-CNN: overcoming catastrophic forgetting in convolutional neural networks by selective network augmentation [C]// Proc of the 8th IAPR Workshop on Artificial Neural Networks in Pattern Recognition. Cham: Springer,2018: 102-112.
[89]Li Honglin,Barnaghi P,Enshaeifar S,et al. Continual learning using Bayesian neural networks [J]. IEEE Trans on Neural Networks and Learning Systems,2021,32(9): 4243-4252.
[90]Li Dong,Liu Shulin,Gao Furong,et al. Continual learning classification method with new labeled data based on the artificial immune system [J]. Applied Soft Computing,2020,94(9): 106423.
[91]Xu Ju,Ma Jin,Gao Xuesong,et al. Adaptive progressive continual learning [J]. IEEE Trans on Pattern Analysis amp; Machine Intel-ligence,2022,44(10): 6715-6728.
[92]Fayek H M,Cavedon L,Wu Hongren. Progressive learning: a deep learning framework for continual learning [J]. Neural Networks,2020,128(8): 345-357.
[93]Rebuffi S,Kolesnikov A,Sperl G,et al. iCaRL: incremental classifier and representation learning [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society,2017: 2001-2010.
[94]Zhai Mengyao,Chen Lei,Tung F,et al. Lifelong GAN: continual learning for conditional image generation [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 2759-2768.
[95]Zhu J,Zhang R,Pathak D,et al. Toward multimodal image-to-image translation [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2017: 465-476.
[96]Liu Xialei,Wu Chenshen,Menta M,et al. Generative feature replay for class-incremental learning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 226-227.
[97]Yoon J,Yang E,Lee J,et al. Lifelong learning with dynamically expandable networks [EB/OL]. (2018-06-11). https://arxiv.org/pdf/1708.01547v1.pdf.
[98]Rosasco A,Carta A,Cossu A,et al. Distilled replay: overcoming forgetting through synthetic samples [C]// Proc of the 1st International Workshop on Continual Semi-Supervised Learning. Berlin: Springer-Verlag,2021: 104-117.
[99]Cha H,Lee J,Shin J. Co2L: contrastive continual learning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway,NJ: IEEE Press,2021.
[100]Titsias M K,Schwarz J,Matthews A G D G,et al. Functional regularisation for continual learning with Gaussian processes [EB/OL]. (2020-02-11). https://arxiv.org/pdf/1901.11356.pdf.
[101]Traoré R,Caselles-Dupré H,Lesort T,et al. Continual reinforcement learning deployed in real-life using policy distillation and sim2real transfer [EB/OL]. (2019-06-11). https://arxiv.org/pdf/1906.04452.pdf.
[102]Yao Xin,Huang Tianchi,Wu Chenglei,et al. Adversarial feature alignment: avoid catastrophic forgetting in incremental task lifelong learning [J]. Neural Computation,2019,31(11): 2266-2291.
[103]Jin Leilei,Liang Hong,Yang Changsheng. Class-incremental lear-ning of convolutional neural networks based on double consolidation mechanism [J]. IEEE Access,2020,8: 172553-172562.
[104]Ye Juan,Callus E. Evolving models for incrementally learning emerging activities [J]. Journal of Ambient Intelligence and Smart Environments,2020,12(4): 313-325.
[105]Graffieti G,Borghi G,Maltoni D. Continual learning in real-life applications [J]. IEEE Robotics and Automation Letters,2022,3(7): 6195-6202.
[106]Tao A,Sapra K,Catanzaro B. Hierarchical multi-scale attention for semantic segmentation [EB/OL]. (2020-05-21). https://arxiv.org/pdf/2005.10821.pdf.
[107]Ozdemir F,Goksel O. Extending pretrained segmentation networks with additional anatomical structures [J]. International Journal of Computer Assisted Radiology and Surgery,2019,14(7): 1187-1195.
[108]Cermelli F,Mancini M,Bulo S R,et al. Modeling the background for incremental learning in semantic segmentation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2020: 9233-9242.
[109]Douillard A,Chen Y,Dapogny A,et al. PLOP: learning without forgetting for continual semantic segmentation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2021: 4040-4050.
[110]Zhang Hui,Zhu Mu,Zhang Jing,et al. Long-term visual object tracking via continual learning [J]. IEEE Access,2019,7: 182548-182558.
[111]Doshi K,Yilmaz Y. Continual learning for anomaly detection in surveillance videos [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2020: 254-255.
[112]Chen J C. Continual learning for addressing optimization problems with a snake-like robot controlled by a self-organizing model [J]. Applied Sciences,2020,10(14): 4848.
[113]Kobayashi T,Sugino T. Reinforcement learning for quadrupedal locomotion with design of continual-hierarchical curriculum [J]. Engineering Applications of Artificial Intelligence,2020,95(10): 103869.
[114]趙振兵,蔣志鋼,熊靜,等. 基于對抗性持續學習模型的輸電線路部件缺陷分類 [J]. 電子與信息學報. 2022,44(11): 3757-3766. (Zhao Zhenbing,Jiang Zhigang,Xiong Jing,et al. Fault classification of transmission line components based on the adversarial continual learning model [J]. Journal of Electronics amp; Information Technology,2022,44(11): 3757-3766.)
[115]劉星,王文雙,趙建印,等. 自適應在線增量ELM的故障診斷模型研究 [J]. 系統工程與電子技術,2021,43(9): 2678-2687. (Liu Xing,Wang Wenshuang,Zhao Jianyin,et al. Research on adaptive online incremental ELM fault diagnosis model [J]. Systems Engineering and Electronics,2021,43(9): 2678-2687.)
[116]Garcia X,Constant N,Parikh A P,et al. Towards continual learning for multilingual machine translation via vocabulary substitution [C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: Association for Computational Linguistics,2021: 1184-1192.