李雪,蔣樹強(qiáng)
(1.山東科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,山東 青島 266590; 2. 中國科學(xué)院計(jì)算技術(shù)研究所 智能信息處理重點(diǎn)實(shí)驗(yàn)室,北京 100190)
智能交互的物體識(shí)別增量學(xué)習(xí)技術(shù)綜述
李雪1,2,蔣樹強(qiáng)2
(1.山東科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,山東 青島 266590; 2. 中國科學(xué)院計(jì)算技術(shù)研究所 智能信息處理重點(diǎn)實(shí)驗(yàn)室,北京 100190)
智能交互系統(tǒng)是研究人與計(jì)算機(jī)之間進(jìn)行交流與通信,使計(jì)算機(jī)能夠在最大程度上完成交互者的某個(gè)指令的一個(gè)領(lǐng)域。其發(fā)展的目標(biāo)是實(shí)現(xiàn)人機(jī)交互的自主性、安全性和友好性。增量學(xué)習(xí)是實(shí)現(xiàn)這個(gè)發(fā)展目標(biāo)的一個(gè)途徑。本文對(duì)智能交互系統(tǒng)的任務(wù)、背景和獲取信息來源進(jìn)行簡要介紹,主要對(duì)增量學(xué)習(xí)領(lǐng)域的已有工作進(jìn)行綜述。增量學(xué)習(xí)是指一個(gè)學(xué)習(xí)系統(tǒng)能不斷地從新樣本中學(xué)習(xí)新的知識(shí),非常類似于人類自身的學(xué)習(xí)模式。它使智能交互系統(tǒng)擁有自我學(xué)習(xí),提高交互體驗(yàn)的能力。文中對(duì)主要的增量學(xué)習(xí)算法的基本原理和特點(diǎn)進(jìn)行了闡述,分析各自的優(yōu)點(diǎn)和不足,并對(duì)進(jìn)一步的研究方向進(jìn)行展望。
人工智能;人機(jī)交互;計(jì)算機(jī)視覺;物體識(shí)別;機(jī)器學(xué)習(xí);多模態(tài);機(jī)器人;交互學(xué)習(xí)
智能交互系統(tǒng)最為重要的一項(xiàng)任務(wù)就是捕獲和理解外界環(huán)境信息,從而完成交互方任務(wù)。近年來,由于人工智能和機(jī)器人學(xué)等相關(guān)領(lǐng)域技術(shù)的進(jìn)步,智能交互系統(tǒng)得到了廣泛的關(guān)注,高性能智能交互系統(tǒng)的實(shí)現(xiàn)也更加現(xiàn)實(shí)。智能交互系統(tǒng)感知外界環(huán)境比人類困難得多,而準(zhǔn)確感知外界環(huán)境可以提高智能交互系統(tǒng)的交互性能,因此許多智能交互系統(tǒng)相關(guān)的工作探索了提高對(duì)外界環(huán)境感知性能的問題,主要的思想策略包括多模態(tài)信息融合和增量學(xué)習(xí)兩個(gè)方面。多模態(tài)的信息融合可以使智能系統(tǒng)增加對(duì)外界環(huán)境的確定性,同時(shí),不斷變化的外界環(huán)境要求智能系統(tǒng)擁有不斷自我學(xué)習(xí)的能力。通過交互不斷學(xué)習(xí)外界信息也使智能系統(tǒng)的性能得以不斷提升。在計(jì)算機(jī)視覺、智能交互系統(tǒng)等領(lǐng)域,增量學(xué)習(xí)都已引起了廣泛的關(guān)注。本文基于智能交互系統(tǒng)的物體識(shí)別,對(duì)增量學(xué)習(xí)的進(jìn)展進(jìn)行綜述。首先,對(duì)智能交互系統(tǒng)的研究背景和現(xiàn)狀進(jìn)行簡要介紹,在此基礎(chǔ)上,對(duì)增量學(xué)習(xí)主要算法進(jìn)行綜合對(duì)比與分析。最后討論了增量學(xué)習(xí)可擴(kuò)展和待解決的問題,以及進(jìn)一步的研究方向。
對(duì)于人類來說,我們可以精確地感知周圍環(huán)境變化并作出相應(yīng)的反應(yīng),但對(duì)于計(jì)算機(jī)來說,獲取并分析周圍環(huán)境信息,同時(shí)通過模仿人類行為來實(shí)現(xiàn)與人的交互,這是一個(gè)極具挑戰(zhàn)性的任務(wù)。它包括場景理解、活動(dòng)分類、運(yùn)動(dòng)分析、物體識(shí)別、自然語言理解、語音合成等方面。每個(gè)方面都可作為一個(gè)獨(dú)立研究的任務(wù)。
準(zhǔn)確感知外部環(huán)境可以使智能交互系統(tǒng)提高任務(wù)的完成度、完成的準(zhǔn)確度和交互者對(duì)交互體驗(yàn)的滿意度。多模態(tài)的外部信息,信息中較多的干擾和噪聲,外界環(huán)境的復(fù)雜多變,都對(duì)智能系統(tǒng)建立對(duì)外部環(huán)境的準(zhǔn)確感知提出了挑戰(zhàn)。
為了增強(qiáng)交互系統(tǒng)對(duì)外部環(huán)境的感知性能,兩個(gè)方面的相關(guān)工作被廣泛研究:1)多模態(tài)信息融合;2)通過交互增量學(xué)習(xí),自我改進(jìn)。
人類為了精確感知周圍環(huán)境,往往會(huì)結(jié)合多種感知信息,如視覺、聽覺、觸覺等。認(rèn)知科學(xué)的研究表明通過結(jié)合感官信息,人類可以增強(qiáng)對(duì)環(huán)境的感知。因此在多模態(tài)信息輸入的智能交互系統(tǒng)中,互補(bǔ)的輸入模式給系統(tǒng)提供了冗余的信息,而冗余輸入模式增加了系統(tǒng)融合信息的準(zhǔn)確性,降低系統(tǒng)對(duì)外界環(huán)境的不確定性,增加對(duì)環(huán)境感知的可靠性,從嘈雜的信息中產(chǎn)生一個(gè)單一的整體狀態(tài)[1-3]。
2.1 自然語言理解
智能交互系統(tǒng)常常需要通過理解自然語言來對(duì)交互者的語言進(jìn)行分析,從而獲取到對(duì)方的指令。自然語言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。自然語言處理是一門融語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。其常用的方法有:1)關(guān)鍵詞匹配;2)使用有標(biāo)注的語料庫;3)語義分析。在文獻(xiàn)[4]中,該系統(tǒng)使用關(guān)鍵詞匹配技術(shù)實(shí)現(xiàn)自然語言理解,并假設(shè)相應(yīng)的單詞有某種特定的序列。文獻(xiàn)[5]和文獻(xiàn)[6]使用語義分析技術(shù)實(shí)現(xiàn)對(duì)自然語言的理解和分析。文獻(xiàn)[5]的語言模型從現(xiàn)有的語料庫[7]中訓(xùn)練得到, 而文獻(xiàn)[6]通過系統(tǒng)與交互者對(duì)話的過程不斷獲得語料,并逐步學(xué)習(xí),不斷改進(jìn)其語言模型。
2.2 計(jì)算機(jī)視覺
由于獲取外界信息的另一個(gè)主要渠道是視覺,所以計(jì)算機(jī)視覺是當(dāng)前人機(jī)交互中一個(gè)非?;钴S的領(lǐng)域。這一學(xué)科的基本假設(shè)是:可以通過計(jì)算的方式來模擬人類的視覺機(jī)制。如圖1所示,智能系統(tǒng)模擬人類視覺機(jī)制的過程主要包括兩個(gè)方面:1)智能系統(tǒng)要有能力將外部視覺信息轉(zhuǎn)化為智能系統(tǒng)的內(nèi)部表示;2)從外部環(huán)境獲取到的視覺信息到語義方面的文字需要一個(gè)可用的映射。

圖1 計(jì)算機(jī)模擬人類視覺機(jī)制Fig.1 Computer simulation of human visual mechanism
第1個(gè)方面主要要求智能系統(tǒng)可以從圖像中提取出有判別能力的特征。圖像特征基本包括兩種:手工設(shè)計(jì)的淺層特征和使用深度模型提取的深度特征。 SIFT[8]、FPFH (fast point features histogram)[9]和ensembles of shape features[10]等都屬于手工設(shè)計(jì)的淺層特征。這種特征對(duì)圖像變化如圖像旋轉(zhuǎn)、尺度變化等具有不變性。但是淺層特征只能捕捉到一部分圖像信息[11]。與此相反的是,由于近年來深度學(xué)習(xí)模型(如卷積神經(jīng)網(wǎng)絡(luò)[12])方面的進(jìn)步,由深度學(xué)習(xí)模型提取的深度特征可以捕獲圖像語義等更高層面的信息,具有更強(qiáng)的區(qū)分能力。因此,在計(jì)算機(jī)視覺方面,深度特征被廣泛使用。
智能系統(tǒng)模擬人類視覺機(jī)制的另一個(gè)要求是可以對(duì)圖像特征進(jìn)行分類識(shí)別。在圖像識(shí)別方面存在一系列的分類、聚類算法,如決策樹、SVM、混合高斯模型等。
2.3 多模態(tài)信息融合
自然語言理解和計(jì)算機(jī)視覺是智能交互系統(tǒng)獲取外界信息的兩個(gè)主要途徑。單一模態(tài)信息使智能系統(tǒng)難以對(duì)外界環(huán)境產(chǎn)成一個(gè)準(zhǔn)確的認(rèn)識(shí),多模態(tài)信息融合可以增加系統(tǒng)對(duì)環(huán)境信息的確認(rèn)度,通過多模態(tài)信息融合,智能系統(tǒng)擺脫了單一模態(tài)的限制,使人機(jī)交互更加智能。當(dāng)前已經(jīng)有很多工作關(guān)注于多模態(tài)融合這一方面的研究[13-20]。
2.4 多模態(tài)信息融合與增量學(xué)習(xí)
多模態(tài)信息融合幫助智能交互系統(tǒng)最大程度上地利用了可獲取的外部信息,消除了單一模態(tài)中噪聲帶來的不一致性,從而可以準(zhǔn)確地感知和理解外部環(huán)境。
對(duì)外部環(huán)境信息的準(zhǔn)確感知使得智能交互系統(tǒng)在交互的過程中產(chǎn)生合情合理的語言或行為,這有助于提升系統(tǒng)的交互性能,得到更加良好的用戶體驗(yàn),如表1所示。

表1 智能交互系統(tǒng)主要交互方式
優(yōu)秀的交互性能和良好的用戶體驗(yàn)使得智能系統(tǒng)可以從交互者處得到正確并且及時(shí)的反饋,這為智能系統(tǒng)在交互中進(jìn)行增量學(xué)習(xí)打下了堅(jiān)實(shí)的基礎(chǔ)。
由于外界環(huán)境復(fù)雜多變,智能交互系統(tǒng)無法在訓(xùn)練前獲取到所有可能情形的全部有效信息作為訓(xùn)練數(shù)據(jù)(如圖2所示,應(yīng)用環(huán)境中的“書籍”在訓(xùn)練環(huán)境中出現(xiàn)過,屬于舊類別的新實(shí)例,而“香蕉”則未曾在訓(xùn)練環(huán)境中出現(xiàn),屬于新類別。智能系統(tǒng)無法識(shí)別這兩種未經(jīng)學(xué)習(xí)的物體)。這就要求智能系統(tǒng)擁有自我學(xué)習(xí)的能力,可以在交互的過程中獲得新的信息,學(xué)習(xí)到新的知識(shí)。

圖2 實(shí)際環(huán)境的復(fù)雜多變和非增量方法的局限性Fig.2 The complex of environment and the limitation of constant model
多模態(tài)的交互引導(dǎo)多模態(tài)的學(xué)習(xí),反過來多模態(tài)的學(xué)習(xí)又會(huì)改善多模態(tài)的交互。這是一個(gè)相互促進(jìn),共同提高的過程。
3.1 從交互中學(xué)習(xí)新知識(shí)的機(jī)器人
當(dāng)前已經(jīng)有許多相關(guān)工作展開了關(guān)于智能系統(tǒng)通過交互進(jìn)行增量學(xué)習(xí)的研究[21-25]。
多方社交智能機(jī)器人在酒吧中使用自然語言與客人對(duì)話,根據(jù)客人的需要為他們提供相應(yīng)的飲品[26]。它的學(xué)習(xí)任務(wù)在于引導(dǎo)一個(gè)多方互動(dòng)對(duì)話,其目標(biāo)為:當(dāng)機(jī)器人的視野中同時(shí)出現(xiàn)多位客人時(shí),以社會(huì)可接受的行為來盡可能為客人提供正確的飲品。
室內(nèi)路線說明機(jī)器人[27]基于預(yù)定義的室內(nèi)地圖通過語音和手勢向交互者提供方向引導(dǎo)他們到達(dá)相應(yīng)的位置。它的學(xué)習(xí)任務(wù)是通過交互不斷學(xué)習(xí)進(jìn)入,維持和解除與它面前的人進(jìn)行交互的恰當(dāng)時(shí)機(jī)。
移動(dòng)機(jī)器人[28]被用來獲取物體和相關(guān)屬性的新知識(shí)。它的任務(wù)包括發(fā)現(xiàn)未知的物品,詢問物品的外形并獲取相關(guān)的新知識(shí)。其學(xué)習(xí)任務(wù)為通過交互者獲得新物品的物理外形描述,以此來擴(kuò)充其知識(shí)庫。
3.2 智能交互系統(tǒng)自我學(xué)習(xí)的策略
智能交互系統(tǒng)自我學(xué)習(xí)的能力需要通過某種探索和學(xué)習(xí)新知識(shí)的策略來實(shí)現(xiàn)。
增量學(xué)習(xí)是近年來備受關(guān)注的一種學(xué)習(xí)新知識(shí)的策略,旨在利用新數(shù)據(jù)來不斷更新原有模型,使學(xué)習(xí)具有延續(xù)性,從而實(shí)現(xiàn)增量式的學(xué)習(xí)。
增量學(xué)習(xí)使智能交互系統(tǒng)可以進(jìn)行持續(xù)性的學(xué)習(xí),外部環(huán)境和交互者充當(dāng)“老師”的角色,而系統(tǒng)則通過多模態(tài)的交互不斷獲得并學(xué)習(xí)新信息。
4.1 增量學(xué)習(xí)的背景
由于真實(shí)的交互環(huán)境是開放并且復(fù)雜多變的[29],在訓(xùn)練模型之前無法獲取到所有可能情形的有效信息作為訓(xùn)練數(shù)據(jù)。除此之外,數(shù)據(jù)標(biāo)簽的獲取也需要耗費(fèi)大量人力、物力、財(cái)力和時(shí)間。最為重要的一點(diǎn)是,新的物體類別不斷產(chǎn)生,已有物體類別的新實(shí)例不斷出現(xiàn),甚至有的物體類別的意義不斷遷移變化,這都在數(shù)據(jù)方面要求智能系統(tǒng)需要具有不斷學(xué)習(xí)的能力。另一方面,自我學(xué)習(xí)的能力可以使智能系統(tǒng)在獲得新數(shù)據(jù)時(shí)隨時(shí)學(xué)習(xí),不需要重新訓(xùn)練全部數(shù)據(jù)[30]。這又在模型方面要求智能系統(tǒng)需要具有不斷學(xué)習(xí)的能力。
4.2 增量學(xué)習(xí)的現(xiàn)狀
學(xué)習(xí)新數(shù)據(jù)基本可以分為兩種策略:一種是拋棄原有模型,在現(xiàn)有數(shù)據(jù)上學(xué)習(xí)新知識(shí);另一種是基于原有模型,在此基礎(chǔ)上繼續(xù)學(xué)習(xí)新知識(shí)。這兩種策略可以引出著名的穩(wěn)定性-可塑性定理(stability-plasticity dilemma)[31]。
這個(gè)定理指出,一個(gè)完全穩(wěn)定的模型可以保存已經(jīng)學(xué)到的知識(shí)不忘記,但無法學(xué)習(xí)到新的知識(shí);而一個(gè)完全可塑的模型可以學(xué)習(xí)新知識(shí),但無法保存以前學(xué)到的知識(shí)(如圖3所示)。而優(yōu)秀的增量學(xué)習(xí)方法就是在可塑性和穩(wěn)定性之間尋找一個(gè)合理的權(quán)衡。

圖3 穩(wěn)定性-可塑性定理Fig.3 Stability-plasticity dilemma
文獻(xiàn)[32]提出真正的增量學(xué)習(xí)應(yīng)該滿足4個(gè)條件,如圖4。

圖4 增量學(xué)習(xí)的條件Fig.4 The conditions of incremental learning
1)可以學(xué)習(xí)舊類別的新數(shù)據(jù)?!皶备拍钤谟?xùn)練環(huán)境已經(jīng)出現(xiàn)過,應(yīng)用環(huán)境中的“書籍”是舊類別的新實(shí)例。
2)可以學(xué)習(xí)新類別。“香蕉”概念在訓(xùn)練環(huán)境未出現(xiàn)過,應(yīng)用環(huán)境中的“香蕉”屬于新類別。
3)在學(xué)習(xí)新知識(shí)時(shí),舊的訓(xùn)練數(shù)據(jù)不是必須的。增量學(xué)習(xí)時(shí)只使用應(yīng)用環(huán)境中的新數(shù)據(jù)(“書籍”)和新類別(“香蕉”)作為訓(xùn)練數(shù)據(jù),而不需要已經(jīng)學(xué)過的“罐”、“蘋果”和“杯子”數(shù)據(jù)。
4)學(xué)習(xí)新知識(shí)后,不會(huì)忘記已經(jīng)學(xué)到的舊知識(shí)。在應(yīng)用環(huán)境中仍能識(shí)別以前在訓(xùn)練環(huán)境中學(xué)到的舊概念:“罐”、“蘋果”、“杯子”和“書籍”概念的舊實(shí)例。
當(dāng)前有許多增量學(xué)習(xí)方面的工作并不嚴(yán)格滿足以上4個(gè)條件。
4.3 拋棄原有模型
對(duì)于學(xué)習(xí)新數(shù)據(jù)的第1種策略:拋棄原有模型,在現(xiàn)有數(shù)據(jù)上學(xué)習(xí)新知識(shí)。這種完全可塑的策略面臨的最大問題是災(zāi)難性的遺忘(catastrophic forgetting)。它在現(xiàn)有新數(shù)據(jù)上學(xué)習(xí)知識(shí),可以學(xué)到新的數(shù)據(jù)和類別,并且可以不需要原來的訓(xùn)練數(shù)據(jù),滿足增量學(xué)習(xí)的前3個(gè)條件。但它拋棄原有模型,則會(huì)導(dǎo)致舊知識(shí)的遺忘,不能滿足第4個(gè)條件。神經(jīng)網(wǎng)絡(luò)常常使用這種策略的模型,例如多層感知機(jī)、徑向基函數(shù)網(wǎng)絡(luò),小波網(wǎng)絡(luò)和Kohonen網(wǎng)絡(luò)。
4.4 基于原有模型繼續(xù)學(xué)習(xí)
對(duì)于學(xué)習(xí)新數(shù)據(jù)的第2種策略:基于原有模型,在此基礎(chǔ)上繼續(xù)學(xué)習(xí)新知識(shí)。這種策略也常因關(guān)注于不同的方面而不能完全滿足增量學(xué)習(xí)的4個(gè)條件。
根據(jù)增量學(xué)習(xí)算法學(xué)習(xí)的內(nèi)容來看,新數(shù)據(jù)主要來源于兩個(gè)方面:1)數(shù)據(jù)來源于已經(jīng)學(xué)習(xí)過的類別,是舊類別的新實(shí)例;2)數(shù)據(jù)來源于沒有學(xué)習(xí)過的類別,是新類別的數(shù)據(jù)。
4.4.1 學(xué)習(xí)舊類別的新實(shí)例
學(xué)習(xí)舊類別的新實(shí)例這一任務(wù)在某種程度上與遷移學(xué)習(xí)有些相似之處但又有不同,如表2。
表2 增量學(xué)習(xí)與遷移學(xué)習(xí)的比較
Table 2 Comparison between transfer learning and incremental learning

類別相同點(diǎn)不同點(diǎn)遷移學(xué)習(xí)增量學(xué)習(xí)將已學(xué)習(xí)的知識(shí)轉(zhuǎn)移到新的任務(wù)訓(xùn)練集領(lǐng)域與測試集領(lǐng)域不同;新領(lǐng)域的數(shù)據(jù)未經(jīng)過學(xué)習(xí)訓(xùn)練集領(lǐng)域與測試集領(lǐng)域相同;新數(shù)據(jù)經(jīng)過學(xué)習(xí)
遷移學(xué)習(xí)的任務(wù)是將某一領(lǐng)域?qū)W到的特征或信息應(yīng)用到另一個(gè)不同但相似的領(lǐng)域上,如文獻(xiàn)[33]。增量學(xué)習(xí)舊類別新實(shí)例的目標(biāo)是利用現(xiàn)有的特征在相同任務(wù)(需要識(shí)別的類別不變)但規(guī)模擴(kuò)大的數(shù)據(jù)集上學(xué)習(xí)新的知識(shí)。
文獻(xiàn)[34]修改了原SVM目標(biāo)函數(shù)中的損失項(xiàng),使修改后的SVM可以在原模型的基礎(chǔ)上修改分類面,實(shí)現(xiàn)增量學(xué)習(xí)舊類別新實(shí)例;文獻(xiàn)[35]提出了一個(gè)基于SVM框架增量學(xué)習(xí)的精確解,即每增加一個(gè)訓(xùn)練樣本或減少一個(gè)樣本都會(huì)對(duì)Lagrange系數(shù)和支持向量產(chǎn)生影響,以此來調(diào)整分界面;文獻(xiàn)[36]介紹了HME(hierarchical mixture of experts)框架, 這種框架在特征空間的不同區(qū)域訓(xùn)練了多個(gè)分類器,將各個(gè)分類器的輸出通過一個(gè)網(wǎng)絡(luò)進(jìn)行加權(quán)得到最終結(jié)果,它利用線性最小二乘法(linear least squares)和加權(quán)線性最小二乘法(weighted linear least squares)通過遞歸來增量的更新每個(gè)數(shù)據(jù)點(diǎn)的參數(shù),從而實(shí)現(xiàn)增量式的在線學(xué)習(xí);文獻(xiàn)[37]每次從候選訓(xùn)練數(shù)據(jù)集中選取一部分新的信息,并把選取出的新數(shù)據(jù)添加到當(dāng)前數(shù)據(jù)集中;文獻(xiàn)[38]擴(kuò)展了文獻(xiàn)[37]的增量學(xué)習(xí)方法,通過對(duì)候選訓(xùn)練數(shù)據(jù)集進(jìn)行無監(jiān)督的聚類,每次選出最有信息量的一部分?jǐn)?shù)據(jù)加入當(dāng)前訓(xùn)練數(shù)據(jù)中;文獻(xiàn)[39]提出了一種結(jié)構(gòu)學(xué)習(xí)算法,它使用數(shù)據(jù)集中的一小部分作為訓(xùn)練數(shù)據(jù)來建立一個(gè)具有最優(yōu)隱藏層節(jié)點(diǎn)數(shù)目的前饋網(wǎng)絡(luò),該方法以訓(xùn)練數(shù)據(jù)集中較少的一部分?jǐn)?shù)據(jù)作為初始的訓(xùn)練數(shù)據(jù),通過有效的選擇訓(xùn)練數(shù)據(jù),最終產(chǎn)生一個(gè)最少但對(duì)所有數(shù)據(jù)有效的訓(xùn)練集。
這些增量學(xué)習(xí)方法更加關(guān)注于學(xué)習(xí)舊類別的新實(shí)例,它們都無法完全滿足增量學(xué)習(xí)的4個(gè)條件。首先,這些方法無法學(xué)習(xí)新類別的數(shù)據(jù)。其次,有些方法在增量學(xué)習(xí)的同時(shí)必須使用部分或全部原始數(shù)據(jù)。
4.4.2 學(xué)習(xí)新類別的數(shù)據(jù)
與學(xué)習(xí)舊類別的新實(shí)例相比,學(xué)習(xí)新類別明顯更加具有挑戰(zhàn)性。
這個(gè)任務(wù)的目標(biāo)是利用現(xiàn)有的特征在更加復(fù)雜的任務(wù)(需要識(shí)別的類別增加)并且規(guī)模擴(kuò)大的數(shù)據(jù)集上學(xué)習(xí)新的知識(shí)。
對(duì)遷移學(xué)習(xí)的關(guān)注使得更多的研究工作注重于使用更少的數(shù)據(jù)來學(xué)得泛化性能更好的模型。由此轉(zhuǎn)化到學(xué)習(xí)新類別方面的兩個(gè)較為典型的研究領(lǐng)域?yàn)椋簅ne-shot learning 和 zero-shot learning。文獻(xiàn)[40]提出了一種貝葉斯遷移學(xué)習(xí)方法,這種增量學(xué)習(xí)方法可以使用少量新數(shù)據(jù)學(xué)習(xí)到新類別。文獻(xiàn)[41]提出了一種基于多模型的知識(shí)遷移算法,這種增量學(xué)習(xí)方法可以依靠已經(jīng)學(xué)習(xí)的類別使用少量新數(shù)據(jù)來有效的學(xué)習(xí)新類別。通過求解一個(gè)凸優(yōu)化問題,該方法自動(dòng)選擇利用哪一部分舊知識(shí)傳遞多少信息最為有效并確保在可用訓(xùn)練集上達(dá)到最小誤差。文獻(xiàn)[42]通過使用屬性分類器來實(shí)現(xiàn)zero-shot learning的目標(biāo)。
文獻(xiàn)[43]指出,在其之前的大多數(shù)增量學(xué)習(xí)的工作都專注于二分類問題,這篇文章提出了一個(gè)多類分類的方法,在保存已學(xué)到的知識(shí)的基礎(chǔ)上把當(dāng)前的N類分類器轉(zhuǎn)化為一個(gè)N+1類分類器;文獻(xiàn)[44]提出了一種具有層級(jí)關(guān)系的增量學(xué)習(xí)模型NCMF(nearestclassmeanforestclassifier)。這種方法以層級(jí)關(guān)系來組織概念,使得學(xué)習(xí)新類別時(shí)可以更新局部節(jié)點(diǎn)來達(dá)到增量的目的。文獻(xiàn)[45]結(jié)合SVM算法最大分類間隔的策略和半監(jiān)督學(xué)習(xí)算法低密度分隔符技術(shù),來增加新的分界面以此識(shí)別新類別。
這些增量學(xué)習(xí)方法更加關(guān)注于學(xué)習(xí)新類別,它們對(duì)舊類別的新實(shí)例的學(xué)習(xí)效果尚未得到驗(yàn)證,同時(shí)有些方法在學(xué)習(xí)新數(shù)據(jù)的同時(shí)必須使用部分或全部原始數(shù)據(jù),無法完全滿足增量學(xué)習(xí)的4個(gè)條件。
表3 增量學(xué)習(xí)算法對(duì)比分析
Table 3 Comparative analysis of incremental learning algorithms

算法新類別舊類別新實(shí)例不需要原始數(shù)據(jù)實(shí)現(xiàn)技術(shù)文獻(xiàn)[32]√√√多模型組合文獻(xiàn)[34]√√調(diào)整模型參數(shù)文獻(xiàn)[35]√√調(diào)整模型參數(shù)文獻(xiàn)[36]√√多模型組合文獻(xiàn)[38]√選取有效數(shù)據(jù)文獻(xiàn)[39]√選取有效數(shù)據(jù)文獻(xiàn)[40]√√調(diào)整模型參數(shù)文獻(xiàn)[41]√√多模型組合文獻(xiàn)[42]√√多模型組合文獻(xiàn)[43]√調(diào)整模型參數(shù)文獻(xiàn)[44]√√調(diào)整模型參數(shù)文獻(xiàn)[45]√調(diào)整模型參數(shù)文獻(xiàn)[46]√√√多模型組合文獻(xiàn)[47]√√√調(diào)整模型參數(shù)文獻(xiàn)[48]√√調(diào)整模型參數(shù)文獻(xiàn)[49]√√調(diào)整模型參數(shù)文獻(xiàn)[50]√√調(diào)整模型參數(shù)文獻(xiàn)[51]√調(diào)整模型參數(shù)
4.4.3 實(shí)現(xiàn)增量學(xué)習(xí)的3種技術(shù)
總體來說增量學(xué)習(xí)算法使用的技術(shù)可以總結(jié)為3類[32](圖5):
1)選擇最有信息量的數(shù)據(jù);
2)使用多模型集合實(shí)現(xiàn)模型的加強(qiáng);
3)改變模型的參數(shù)或結(jié)構(gòu)。

圖5 增量學(xué)習(xí)的3種技術(shù)Fig.5 Three techniques of incremental learning
其中第1類方法往往用于實(shí)現(xiàn)舊類別新實(shí)例的增量,并且需要使用部分或全部原始數(shù)據(jù)。其目的是在一段信息流中選取最有效的數(shù)據(jù),使用最少的數(shù)據(jù)完成學(xué)習(xí)任務(wù)。這種方法無法實(shí)現(xiàn)真正的增量學(xué)習(xí)。而第2類方法可以實(shí)現(xiàn)完全的增量學(xué)習(xí)。文獻(xiàn)[46]提出了一種基于分類器集合的算法,該算法為與學(xué)習(xí)過的實(shí)例差別較大的新數(shù)據(jù)建立新的決策集群,每個(gè)集群以無監(jiān)督的方式在特征空間中學(xué)習(xí)一個(gè)不同的超矩形部分,這個(gè)部分與要學(xué)習(xí)的目標(biāo)類別相對(duì)應(yīng)。但是這個(gè)方法對(duì)閾值的選取,訓(xùn)練數(shù)據(jù)中的噪聲和訓(xùn)練數(shù)據(jù)學(xué)習(xí)的順序都十分敏感;文獻(xiàn)[47]提出了一種基于再生希爾伯特空間的增量學(xué)習(xí)算法。但是它需要數(shù)據(jù)分布的一個(gè)先驗(yàn)知識(shí),這對(duì)于增量學(xué)習(xí)任務(wù)本身來說并不容易獲得;文獻(xiàn)[32]受Adaboost的啟發(fā),提出了一個(gè)由分類器集合構(gòu)成的增量模型。這個(gè)算法的核心在于維護(hù)一個(gè)訓(xùn)練數(shù)據(jù)的分布,使得分類錯(cuò)誤的數(shù)據(jù)更容易被采樣,以此學(xué)習(xí)一個(gè)新的分類器加入集合中,而在增量學(xué)習(xí)的過程中,錯(cuò)誤率較高的數(shù)據(jù)則恰恰是尚未見過或?qū)W習(xí)過的數(shù)據(jù)。但第3類方法需要訓(xùn)練多個(gè)模型進(jìn)行組合,計(jì)算代價(jià)大大增加,而且隨著增量學(xué)習(xí)的進(jìn)行,不斷增加的基模型也是一個(gè)未解決的問題。
4.4.4 通過改變模型參數(shù)實(shí)現(xiàn)增量學(xué)習(xí)
因此我們更為關(guān)注第3種方法:通過調(diào)整模型參數(shù)實(shí)現(xiàn)增量學(xué)習(xí)的單一模型。
文獻(xiàn)[34]修改了原SVM目標(biāo)函數(shù)中的損失項(xiàng),使修改后的SVM可以修改原模型的分類面,并且在不需要原始數(shù)據(jù)的前提下,近似實(shí)現(xiàn)全局?jǐn)?shù)據(jù)(新數(shù)據(jù)和已經(jīng)學(xué)習(xí)過的舊數(shù)據(jù))上的損失最小化。SVM使用支撐向量來描述分界面,并將支撐向量作為參數(shù)存儲(chǔ)在模型中。該方法利用支撐向量來代替原始數(shù)據(jù),同時(shí)通過權(quán)重使支撐向量可以更好的模擬原始數(shù)據(jù)。文獻(xiàn)[35]提出的C&P 算法實(shí)現(xiàn)了SVM框架下增量學(xué)習(xí)的一個(gè)精確解。訓(xùn)練SVM相當(dāng)于求解一個(gè)二次規(guī)劃,二次規(guī)劃的系數(shù)個(gè)數(shù)與訓(xùn)練數(shù)據(jù)個(gè)數(shù)相同。增量學(xué)習(xí)時(shí),每增加一個(gè)訓(xùn)練數(shù)據(jù),可以迭代求解一個(gè)新的系數(shù)。C&P算法的關(guān)鍵在于,每增加一個(gè)實(shí)例, 都要求學(xué)習(xí)過的所有數(shù)據(jù)全部滿足KKT條件,來求解一個(gè)確定的增量模型。此后,許多研究基于C&P 算法,逐漸展開了兩方面的工作:一方面的工作專注于算法本身,文獻(xiàn)[48]提出了該算法的擴(kuò)展版本,每次迭代更新參數(shù)時(shí)可以同時(shí)處理多個(gè)數(shù)據(jù);另一方面的工作使用C&P 算法解決其他問題。文獻(xiàn)[49]和文獻(xiàn)[50]使用該算法實(shí)現(xiàn)了單類SVM的增量學(xué)習(xí)問題。
與文獻(xiàn)[51]中修改損失項(xiàng)的方法相似的是,文獻(xiàn)[43]修改了SVM目標(biāo)函數(shù)的正則項(xiàng),在增加新的分界面的同時(shí),控制已有分界面的變化。該方法通過建立新的分界面學(xué)習(xí)到新類別,同時(shí)通過控制已學(xué)到的分界面的變化,確保學(xué)到的知識(shí)不會(huì)受新類別的影響而丟失。文獻(xiàn)[45]借鑒SVM中最大分類間隔和半監(jiān)督學(xué)習(xí)中低密度分隔符的思想,在所有低密度分隔符中選取一個(gè)分界面使得模型的經(jīng)驗(yàn)損失,結(jié)構(gòu)損失和增廣損失(新類別的損失)整體最小。文獻(xiàn)[51]將卷積神經(jīng)網(wǎng)絡(luò)組織成層級(jí)樹形結(jié)構(gòu),每個(gè)節(jié)點(diǎn)由一些相似類別的聚類構(gòu)成,該方法通過樹形結(jié)構(gòu)使得模型更新時(shí)只需要調(diào)整模型局部,并可以嚴(yán)格控制模型調(diào)整范圍,增添新節(jié)點(diǎn)時(shí)此方法通過克隆原有節(jié)點(diǎn)進(jìn)行調(diào)整,使得已學(xué)到的知識(shí)不會(huì)被遺忘。
這些通過修改原模型參數(shù)而實(shí)現(xiàn)增量學(xué)習(xí)的算法也沒有完全滿足增量學(xué)習(xí)的4個(gè)條件,它們都解決了災(zāi)難性遺忘的問題,但都更加側(cè)重于學(xué)習(xí)舊類別新實(shí)例或者新類別中的某一方面,有些方法也沒有解決需要原始數(shù)據(jù)的問題。
目前,增量學(xué)習(xí)在智能交互、物體識(shí)別等許多方面都得到了廣泛的研究,但由于應(yīng)用環(huán)境遠(yuǎn)比訓(xùn)練環(huán)境更加復(fù)雜多變,離智能交互系統(tǒng)真正走出實(shí)驗(yàn)室,進(jìn)入真實(shí)應(yīng)用場景還有一段距離。本文將對(duì)增量學(xué)習(xí)未來的研究方向進(jìn)行展望。
5.1 面向大規(guī)模數(shù)據(jù)集的增量學(xué)習(xí)
近年來,隨著信息技術(shù)的發(fā)展,數(shù)據(jù)呈現(xiàn)爆炸式增長的趨勢,這使得模型的訓(xùn)練和更新都變得更加困難并且耗時(shí)。
在面向大規(guī)模數(shù)據(jù)集時(shí),增量學(xué)習(xí)的優(yōu)點(diǎn)尤為突出。一方面,在訓(xùn)練數(shù)據(jù)規(guī)模擴(kuò)大的同時(shí),訓(xùn)練需要的時(shí)間和計(jì)算能力都隨之增加。當(dāng)新數(shù)據(jù)或新類別出現(xiàn)時(shí),非增量的離線方法需要重新訓(xùn)練已經(jīng)學(xué)習(xí)過的數(shù)據(jù),這會(huì)導(dǎo)致資源的浪費(fèi)。而增量學(xué)習(xí)方法則可以在原始模型的基礎(chǔ)上繼續(xù)學(xué)習(xí),不需要重新訓(xùn)練所有數(shù)據(jù)。另一方面,非增量方法重新訓(xùn)練全部數(shù)據(jù),這也就意味著全部的或絕大部分的數(shù)據(jù)或都必須保留,當(dāng)數(shù)據(jù)量非常龐大時(shí),數(shù)據(jù)的存儲(chǔ)也是一個(gè)問題。而增量學(xué)習(xí)不需要原始數(shù)據(jù),所以不需要考慮數(shù)據(jù)存儲(chǔ)的問題。
5.2 面向深度學(xué)習(xí)的增量學(xué)習(xí)
深度學(xué)習(xí)技術(shù)被大量應(yīng)用到圖像、視頻、文本等多媒體相關(guān)的任務(wù)上。一方面,深度網(wǎng)絡(luò)可以直接完成圖像分類,物體識(shí)別等任務(wù)。另一方面,這些任務(wù)所產(chǎn)生的標(biāo)簽又可以應(yīng)用到圖像檢索相關(guān)的任務(wù)中。深度網(wǎng)絡(luò)又可以間接地?cái)U(kuò)展到其他任務(wù)中去。所有這些任務(wù)的真實(shí)場景中,數(shù)據(jù)及其標(biāo)記的總是以增量的方式進(jìn)行收集的。因此在數(shù)據(jù)方面來說,面向深度學(xué)習(xí)的增量學(xué)習(xí)是合理的。
深度學(xué)習(xí)技術(shù)在圖像分類任務(wù)中的應(yīng)用取得了快速的進(jìn)步,它的性能迅速提升。當(dāng)前限制深度神經(jīng)網(wǎng)絡(luò)性能進(jìn)一步提升的一個(gè)可能性是網(wǎng)絡(luò)容量。因此,一個(gè)可能的解決方案是增加網(wǎng)絡(luò)容量[51]。但是這個(gè)方案面臨著兩個(gè)困難:一方面,大網(wǎng)絡(luò)的訓(xùn)練難度可能成倍增長;另一方面,如何增加網(wǎng)絡(luò)容量還不明確。因此,應(yīng)該更加謹(jǐn)慎地增加網(wǎng)絡(luò)容量,提升網(wǎng)絡(luò)能力。而增量學(xué)習(xí)則為逐步的、增量的改善網(wǎng)絡(luò)提供了一種可能性,當(dāng)前已經(jīng)有一些相關(guān)的工作對(duì)這種可能性展開了一定的研究[39,52-54]。因此在模型方面來說,面向深度學(xué)習(xí)的增量學(xué)習(xí)也是合理的。
5.3 聲圖文融合的多模態(tài)增量學(xué)習(xí)
基于智能交互的增量學(xué)習(xí)系統(tǒng)通過多模態(tài)交互進(jìn)行增量學(xué)習(xí)。由此看來,增量學(xué)習(xí)的內(nèi)容也應(yīng)當(dāng)是多模態(tài)的。
智能系統(tǒng)通過多模態(tài)交互進(jìn)行增量學(xué)習(xí),反過來,增量學(xué)習(xí)的結(jié)果也會(huì)提升多模態(tài)交互的性能。
聽覺、視覺和文字是智能交互系統(tǒng)感知外界環(huán)境信息最主要的3種形式。通過聲圖文融合的增量學(xué)習(xí)方式,可以使智能交互系統(tǒng)逐步全面地適應(yīng)不斷變化的外界環(huán)境。
5.4 知識(shí)條目和識(shí)別能力的增量學(xué)習(xí)
現(xiàn)在的大部分研究工作更加關(guān)注于獨(dú)立的視覺概念的識(shí)別或是單純知識(shí)條目的增加構(gòu)建。但實(shí)際生活中不同的概念之間具有或隱性或顯性的關(guān)系,物體也擁有不同的屬性。這些概念和屬性可以構(gòu)成關(guān)于交互物體、交互者和外界環(huán)境的知識(shí)條目。人類可以基于這些額外的關(guān)系或?qū)傩孕畔W(xué)習(xí)到更多的知識(shí)。智能交互系統(tǒng)也應(yīng)該利用這些信息進(jìn)行更全面的學(xué)習(xí),對(duì)周圍環(huán)境或任務(wù)目標(biāo)得到一個(gè)更加全面的認(rèn)識(shí)。
另一個(gè)值得關(guān)注的方面是,智能交互系統(tǒng)應(yīng)該能夠系統(tǒng)并有效地組織已學(xué)習(xí)到的知識(shí)。文獻(xiàn)[55]指出,將小規(guī)模的信息加入到已經(jīng)組織好的大規(guī)模信息中是人類感知,學(xué)習(xí),和組織信息等過程中十分重要的部分。因此,智能交互系統(tǒng)應(yīng)該擁有一個(gè)合理的學(xué)習(xí)機(jī)制,并可以自動(dòng)在學(xué)習(xí)到的知識(shí)間建立合理有效的聯(lián)系。
目前,增量學(xué)習(xí)在智能交互、物體識(shí)別等許多方面都得到了廣泛的研究,由于應(yīng)用環(huán)境遠(yuǎn)比訓(xùn)練環(huán)境更加復(fù)雜多變,它更加注重于解決自動(dòng)學(xué)習(xí),改善應(yīng)用效果的問題。這說明智能交互系統(tǒng)從實(shí)驗(yàn)環(huán)境逐漸開始走向真實(shí)的應(yīng)用場景。
由于不同任務(wù)關(guān)注方面各不相同,大多數(shù)研究工作都無法完全滿足增量學(xué)習(xí)的定義。但真實(shí)場景的復(fù)雜多變是單一任務(wù)目標(biāo)無法模擬的,若要智能交互系統(tǒng)真正走向現(xiàn)實(shí),需要綜合解決增量學(xué)習(xí)4個(gè)方面的問題,這是增量學(xué)習(xí)算法本身的發(fā)展趨勢。
同時(shí)也應(yīng)該結(jié)合不同的任務(wù),實(shí)現(xiàn)適用于不同場景、不同側(cè)重點(diǎn)的智能增量學(xué)習(xí)系統(tǒng)。根據(jù)任務(wù)本身設(shè)計(jì)不同的策略實(shí)現(xiàn)個(gè)性化的應(yīng)用。這是從應(yīng)用場景來看的增量學(xué)習(xí)發(fā)展趨勢。
當(dāng)這些發(fā)展趨勢真正變?yōu)楝F(xiàn)實(shí)的時(shí)候,智能交互系統(tǒng)有望真正走進(jìn)人類社會(huì),為我們的日常生活帶來更多幫助,安全、便捷和高效地輔助我們完成更多任務(wù)。
[1]ERNST M O, BüLTHOFF H H. Merging the senses into a robust percept[J]. Trends in cognitive sciences, 2004, 8(4): 162-169.
[2]CORRADINI A, MEHTA M, BERNSEN N O, et al. Multimodal input fusion in human-computer interaction[J]. NATO Science Series Sub Series III Computer and Systems Sciences, 2005, 198: 223.
[3]NODA K, ARIE H, SUGA Y, et al. Multimodal integration learning of robot behavior using deep neural networks[J]. Robotics and autonomous systems, 2014, 62(6): 721-736.
[4]MERI?LI C, KLEE S D, PAPARIAN J, et al. An interactive approach for situated task specification through verbal instructions[C]//Proceedings of the 2014 international conference on Autonomous agents and multi-agent systems. Paris, France: International Foundation for Autonomous Agents and Multiagent Systems, 2014: 1069-1076.
[5]CANTRELL R, BENTON J, TALAMADUPULA K, et al. Tell me when and why to do it! Run-time planner model updates via natural language instruction[C]//Proceedings of the 2012 IEEE International Conference on Human-Robot Interaction. Boston, MA: IEEE, 2012: 471-478.
[6]THOMASON J, ZHANG S Q, MOONEY R, et al. Learning to interpret natural language commands through human-robot dialog[C]//Proceedings of the 24th international conference on Artificial Intelligence. Buenos Aires, Argentina: AAAI Press, 2015.
[7]EBERHARD K M, NICHOLSON H, SANDRA K, et al. The Indiana “Cooperative Remote Search Task”(CReST) corpus[C]//Proceedings of the 2010 International Conference on Language Resources and Evaluation. Valletta, Malta: LREC, 2010.
[8]LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International journal of computer vision, 2004, 60(2): 91-110.
[9]MORISSET B, RUSU R B, SUNDARESAN A, et al. Leaving flatland: toward real-time 3D navigation[C]//Proceedings of the 2009 IEEE International Conference on Robotics and Automation. Kobe: IEEE, 2009: 3786-3793.
[10]HINTERSTOISSER S, HOLZER S, CAGNIART C, et al. Multimodal templates for real-time detection of texture-less objects in heavily cluttered scenes[C]//Proceedings of the 2011 IEEE International Conference on Computer Vision. Barcelona: IEEE, 2011: 858-865.
[11]WANG Anran, LU Jiwen, CAI Jianfei, et al. Large-margin multi-modal deep learning for RGB-D object recognition[J]. IEEE transactions on multimedia, 2015, 17(11): 1887-1898.
[12]LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural computation, 1989, 1(4): 541-551.
[13]THOMASON J, SINAPOV J, SVETLIK M, et al. Learning multi-modal grounded linguistic semantics by playing I spy[C]//Proceedings of the 25th International Joint Conference on Artificial Intelligence. New York, 2016.
[14]LIU C S, CHAI J Y. Learning to mediate perceptual differences in situated human-robot dialogue[C]//Proceedings of the Twenty-Ninth American Association Conference on Artificial Intelligence. Austin, Texas: AAAI Press, 2015: 2288-2294.
[15]PARDE N, HAIR A, PAPAKOSTAS M, et al. Grounding the meaning of words through vision and interactive gameplay[J]. Proceedings of the 24th International Conference on Artificial Intelligence. Buenos Aires, Argentina: AAAI Press, 2015.
[16]MATUSZEK C, FITZGERALD N, ZETTLEMOYER L, et al. A joint model of language and perception for grounded attribute learning[C]//Proceedings of the 29th International Conference on Machine Learning. Edinburgh, Scotland, 2012.
[17]趙鵬, 陳浩, 劉慧婷, 等. 一種基于圖的多模態(tài)隨機(jī)游走重排序算法[J]. 哈爾濱工程大學(xué)學(xué)報(bào), 2016, 37(10): 1387-1393. ZHAO Peng, CHEN Hao, LIU Huiting, et al. A multimodal graph-based re-ranking through random walk algrithm[J]. Journal of Harbin Engineering University, 2016, 37(10): 1387-1393.
[18]段喜萍, 劉家鋒, 王建華, 等. 多模態(tài)特征聯(lián)合稀疏表示的視頻目標(biāo)跟蹤[J]. 哈爾濱工程大學(xué)學(xué)報(bào), 2015, 36(12): 1609-1613. DUAN Xiping, LIU Jiafeng, WANG Jianhua, et al. Visual target tracking via multi-cue joint sparse representation[J]. Journal of Harbin Engineering University, 2015, 36(12): 1609-1613.
[19]FISHER J W, DARRELL T. Signal level fusion for multimodal perceptual user interface[C]//Proceedings of the 2001 Workshop on Perceptive User Interfaces. New York, NY, USA: ACM, 2001: 1-7.
[20]JOHNSTON M, BANGALORE S. Finite-state multimodal parsing and understanding[C]//Proceedings of the 18th conference on Computational linguistics. Saarbrücken, Germany: ACM, 2000: 369-375.
[21]BETTERIDGE J, CARLSON A, HONG S A, et al. Toward never ending language learning[C]//Proceedings of the American Association for Artificial Intelligence. 2009: 1-2.
[22]CHERNOVA S, THOMAZ A L. Robot learning from human teachers[M]. San Rafael, CA, USA: IEEE, 2014.
[23]MATUSZEK C, BO L F, ZETTLEMOYER L, et al. Learning from unscripted deictic gesture and language for human-robot interactions[C]//Proceedings of the 28th American Association Conference on Artificial Intelligence. Québec City, Québec, Canada: AAAI Press, 2014: 2556-2563.
[25]顧海巍, 樊紹巍, 金明河, 等. 基于靈巧手觸覺信息的未知物體類人探索策略[J]. 哈爾濱工程大學(xué)學(xué)報(bào), 2016, 37(10): 1400-1407. GU Haiwei, FAN Shaowei, JIN Minghe, et al. An anthropomorphic exploration strategy of unknown object based on haptic information of dexterous robot hand[J]. Journal of Harbin Engineering University, 2016, 37(10): 1400-1407.
[26]KEIZER S, FOSTER M E, WANG Z R, et al. Machine learning for social multiparty human-robot interaction[J]. ACM transactions on interactive intelligent systems (TIIS), 2014, 4(3): 14.
[27]BOHUS D, SAW C W, HORVITZ E. Directions robot: In-the-wild experiences and lessons learned[C]//Proceedings of the 2014 International Conference on Autonomous Agents and Multi-agent Systems. Richland, SC, 2014: 637-644.
[28]KRAUSE E A, ZILLICH M, WILLIAMS T E, et al. Learning to recognize novel objects in one shot through human-robot interactions in natural language dialogues[C]//Proceedings of the 28th American Association Conference on Artificial Intelligence. Québec City, Québec, Canada: AAAI Press, 2014: 2796-2802.
[29]MENSINK T, VERBEEK J J, PERRONNIN F, et al. Distance-based image classification: generalizing to new classes at near-zero cost[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(11): 2624-2637.
[30]IBA W, WOGULIS J, LANGLEY P A T. Trading off simplicity and coverage in incremental concept learning[C]//Proceedings of the Fifth International Conference on Machine Learning. Ann Arbor: University of Michigan, 1988: 73.
[31]GROSSBERG S. Nonlinear neural networks: Principles, mechanisms, and architectures[J]. Neural networks, 1988, 1(1): 17-61.
[32]POLIKAR R, UPDA L, UPDA S S, et al. Learn++: An incremental learning algorithm for supervised neural networks[J]. IEEE transactions on systems, man, and cybernetics, part C (Applications and reviews), 2001, 31(4): 497-508.
[33]賈剛, 王宗義. 混合遷移學(xué)習(xí)方法在醫(yī)學(xué)圖像檢索中的應(yīng)用[J]. 哈爾濱工程大學(xué)學(xué)報(bào), 2015, 36(7): 938-942. JIA Gang, WANG Zongyi. The application of mixed migration learning in medical image retrieval[J]. Journal of Harbin Engineering University, 2015, 36(7): 938-942.
[34]RüPING S. Incremental learning with support vector machines[C]//Proceedings of the 2011 IEEE International Conference on Data Mining. Washington, DC, USA: IEEE, 2001: 641.
[35]CAUWENBERGHS G, POGGIO T. Incremental and decremental support vector machine learning[C]//Proceedings of the 13th International Conference on Advances in neural information processing systems. Cambridge, MA, USA: MIT Press, 2000, 13: 409.
[36]JORDAN M I, JACOBS R A. Hierarchical mixtures of experts and the EM algorithm[J]. Neural computation, 1994, 6(2): 181-214.
[37]WANG E H C, KUH A. A smart algorithm for incremental learning[C]//Proceedings of the 1992 IEEE International Joint Conference on Neural Networks. Baltimore: IEEE, 1992, 3: 121-126.
[38]ENGELBRECHT A P, CLOETE I. Incremental learning using sensitivity analysis[C]//Proceedings of the 1999 International Joint Conference on Neural Networks. Washington DC: IEEE, 1999.
[39]ZHANG B T. An incremental learning algorithm that optimizes network size and sample size in one trial[C]//Proceedings of the 1994 IEEE World Congress on Computational Intelligence. Orlando, FL, USA: IEEE, 1994, 1: 215-220.
[40]LI F F, FERGUS R, PERONA P. One-shot learning of object categories[J]. IEEE transactions on pattern analysis and machine intelligence, 2006, 28(4): 594-611.
[41]TOMMASI T, ORABONA F, CAPUTO B. Learning categories from few examples with multi model knowledge transfer[J]. IEEE transactions on pattern analysis and machine intelligence, 2014, 36(5): 928-941.
[42]LAMPERT C H, NICKISCH H, HARMELING S. Learning to detect unseen object classes by between-class attribute transfer[C]//Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL: IEEE, 2009: 951-958.
[43]KUZBORSKIJ I, ORABONA F, CAPUTO B. From N to N+1: Multiclass transfer incremental learning[C]//Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR: IEEE, 2013: 3358-3365.
[44]RISTIN M, GUILLAUMIN M, GALL J, et al. Incremental learning of NCM forests for large-scale image classification[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH: IEEE, 2014: 3654-3661.
[45]DA Qing, YU Yang, ZHOU Zhihua. Learning with augmented class by exploiting unlabeled data[C]//Proceedings of the 28th American Association Conference on Artificial Intelligence. Québec, Canada: AAAI Press, 2014: 1760-1766.
[46]CARPENTER G A, GROSSBERG S, REYNOLDS J H. ARTMAP: Supervised real-time learning and classification of nonstationary data by a self-organizing neural network[J]. Neural networks, 1991, 4(5): 565-588.
[47]VIJAYAKUMAR S, OGAWA H. RKHS-based functional analysis for exact incremental learning[J]. Neurocomputing, 1999, 29(1/2/3): 85-113.
[48]KARASUYAMA M, TAKEUCHI I. Multiple incremental decremental learning of support vector machines[J]. IEEE transactions on neural networks archive, 2010, 21(7): 1048-1059.
[49]GRETTON A, DESOBRY F. On-line one-class support vector machines. an application to signal segmentation[C]//Proceedings of the 2003 IEEE International Conference on Acoustics, Speech, and Signal Processing. Hong Kong, China: IEEE, 2003.
[50]LASKOV P, GEHL C, KRüGER S, et al. Incremental support vector learning: Analysis, implementation and applications[J]. The Journal of machine learning research archive, 2006, 7: 1909-1936.
[51]XIAO Tianjun, ZHANG Jiaxing, YANG Kuiyuan, et al. Error-driven incremental learning in deep convolutional neural network for large-scale image classification[C]//Proceedings of the 22nd ACM international conference on Multimedia. New York, NY: ACM, 2014: 177-186.
[52]LOMONACO V, MALTONI D. Comparing incremental learning strategies for convolutional neural networks[M]//SCHWENKER F, ABBAS H, EL GAYAR N, et al, eds. Artificial Neural Networks in Pattern Recognition. ANNPR 2016. Lecture Notes in Computer Science. Cham: Springer, 2016.
[53]GRIPPO L. Convergent on-line algorithms for supervised learning in neural networks[J]. IEEE transactions on neural networks, 2000, 11(6): 1284-1299.
[54]FU Limin, HSU H H, PRINCIPE J C. Incremental backpropagation learning networks[J]. IEEE transactions on neural networks, 1996, 7(3): 757-761.
[55]GOBET F, LANE P C R, CROKER S, et al. Chunking mechanisms in human learning[J]. Trends in cognitive sciences, 2001, 5(6): 236-243.

李雪,女,1992年生,碩士研究生,主要研究方向?yàn)橹悄苄畔⑻幚砼c機(jī)器學(xué)習(xí)。

蔣樹強(qiáng),男,1977年生,博士生導(dǎo)師,主要研究方向?yàn)閳D像/視頻等多媒體信息的分析、理解與檢索技術(shù)。IEEE和CCF高級(jí)會(huì)員,獲得2008年度北京市科技新星計(jì)劃支持,2012年度中國科學(xué)院盧嘉錫青年人才獎(jiǎng),2012年度中國計(jì)算機(jī)學(xué)會(huì)科學(xué)技術(shù)獎(jiǎng),2013年度中國科學(xué)院青年科學(xué)家國際合作獎(jiǎng),獲2013年度國家自然科學(xué)基金優(yōu)秀青年科學(xué)基金支持,入選2014年度中組部萬人計(jì)劃青年拔尖人才計(jì)劃。 發(fā)表學(xué)術(shù)論文100余篇,授權(quán)專利10項(xiàng)。
Incremental learning and object recognition systembased on intelligent HCI: a survey
LI Xue1, JIANG Shuqiang2
(1. College of Information Science and Engineering, Shandong University of Science and Technology, Qingdao 266590, China; 2. Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China)
Intelligent HCI systems focus on the interaction between computers and humans and study whether computers are able to apprehend human instructions. Moreover, this study aims to make the interaction more independent and interactive. To some extent, incremental learning is a way to realize this goal. This study briefly introduces the tasks, background, and information source of intelligent HCI systems; in addition, it focuses on the summary of incremental learning. Similar to the learning mechanism of humans, incremental learning involves acquiring new knowledge on a continuous basis. This allows for the intelligent HCI systems to have the ability of self-growth. This study surveys the works that focus on incremental learning, including the mechanisms and their respective advantages and disadvantages, and highlights the future research directions.
artificial intelligence; human-computer interaction; computer vision; object recognition; machine learning; multimodality; robotics; interactive learning
2017-01-09.
日期:2017-04-19.
國家“973”計(jì)劃項(xiàng)目(2012CB316400).
蔣樹強(qiáng).E-mail: :sqjiang@ict.ac.cn.
10.11992/tis.201701006
http://kns.cnki.net/kcms/detail/23.1538.TP.20170419.1448.002.html
TP391
A
1673-4785(2017)02-0140-10
李雪,蔣樹強(qiáng). 智能交互的物體識(shí)別增量學(xué)習(xí)技術(shù)綜述[J]. 智能系統(tǒng)學(xué)報(bào), 2017, 12(2): 140-149.
英文引用格式:LI Xue, JIANG Shuqiang. Incremental learning and object recognition system based on intelligent HCI: a survey[J]. CAAI transactions on intelligent systems, 2017, 12(2): 140-149.