吳 桂 玲
(信陽農(nóng)林學(xué)院信息工程學(xué)院 河南 信陽 464000)
人工智能技術(shù)的發(fā)展使得智能機(jī)器人的研究得以實(shí)現(xiàn),人們對(duì)于家庭服務(wù)機(jī)器人(Domestic Service Robots,DSR)的需求也逐漸增加。解決DSR與人互動(dòng)的大多數(shù)方法都是基于句法和語義語法的[1],由于創(chuàng)建語法的困難,區(qū)分性分類器(例如條件隨機(jī)場(chǎng)和支持向量機(jī))以及生成性分類器(例如有限狀態(tài)行列式和隱馬爾可夫模型)已開始用于此問題[2]。隨著可用數(shù)據(jù)和計(jì)算能力的增加,深度學(xué)習(xí)算法開始在自然語言處理(NLP)領(lǐng)域中達(dá)到新的水平。Li等[3]將遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)樹應(yīng)用于動(dòng)作識(shí)別;Fok等[4]提出了長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)和RNN進(jìn)行運(yùn)動(dòng)動(dòng)作和性能分析的人工智能方法。
由于機(jī)器人執(zhí)行復(fù)雜任務(wù)的能力與其環(huán)境模型的豐富性有著內(nèi)在的聯(lián)系,傳感器技術(shù)、機(jī)器感知和自然語言理解的進(jìn)步提供了豐富的數(shù)據(jù),可以輸入到這些模型中[5]。DSR推斷用戶的意圖不僅依賴于語言輸入,還依賴于其他本體感覺和語境知識(shí)[6]。為了使提供各種支持功能的DSR標(biāo)準(zhǔn)化,研究者正在做出更大的努力,機(jī)器人領(lǐng)域開始更加關(guān)注語言和現(xiàn)實(shí)世界信息之間的映射,Chao等[7]提出了通過面部信息、上下文文本和對(duì)象識(shí)別增強(qiáng)TED-LIUM語料庫,為機(jī)器人多模態(tài)自然語言理解方法打下了基礎(chǔ)。然而,大多數(shù)用于DSR的口語理解(Spoken Language Understanding,SLU)方法仍然是基于規(guī)則的[8]。Kawahara[9]提出了類人對(duì)話機(jī)器人ERICA的語音對(duì)話系統(tǒng),利用視覺和上下文信息啟動(dòng)語音識(shí)別的模型。Gallé等[10]提出的人機(jī)對(duì)話中多模態(tài)對(duì)話填充語的上下文感知選擇方法采用貝葉斯模型對(duì)填充時(shí)間進(jìn)行采樣,收集對(duì)話期間的上下文信息。
利用視覺和上下文信息等多模態(tài)內(nèi)容能夠幫助DSR更好地理解和執(zhí)行指令,最近的研究已經(jīng)使用基于多模態(tài)相似性的集成來處理多模態(tài)語言理解,王紅等[11]提出了LSTM進(jìn)行語義關(guān)系抽取。Hatori等[12]提出了一種機(jī)器人系統(tǒng),該系統(tǒng)包括人類自然語言指令以拾取和放置日常物品。Liyanage等[13]提出一種基于規(guī)則和機(jī)器學(xué)習(xí)的語義分析方法。Mi等[14]提出了基于CNN(Convolutional Neural Networks)的對(duì)象提供能力識(shí)別方法,用于多模態(tài)人機(jī)交互。
本文在現(xiàn)有機(jī)器自然語言理解方法的基礎(chǔ)上,結(jié)合深度學(xué)習(xí)和多模態(tài)信息,提出一種基于混合深度學(xué)習(xí)的多模態(tài)自然語言理解方法,該方法結(jié)合周邊場(chǎng)景和指令,通過兩種深度學(xué)習(xí)預(yù)測(cè)周邊所有目標(biāo)-源對(duì),得到每個(gè)目標(biāo)-目的地對(duì)的區(qū)域范圍可能性,最后通過GAN(Generative Adversarial Network)對(duì)數(shù)據(jù)進(jìn)行增強(qiáng)和分類,提高指令中目標(biāo)對(duì)象預(yù)測(cè)的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,本文方法能夠提高家庭服務(wù)機(jī)器人對(duì)指令理解的準(zhǔn)確性。


圖1 LSTM模型結(jié)構(gòu)
生成式對(duì)抗網(wǎng)絡(luò)(GAN)是一種通過對(duì)抗過程估計(jì)生成模型的網(wǎng)絡(luò)框架,具有強(qiáng)大的圖片生成能力,初始在圖像方面得到廣泛應(yīng)用,目前越來越多的研究者將其應(yīng)用到自然語言理解分類方面。
GAN的基本框架由兩個(gè)網(wǎng)絡(luò)構(gòu)成:生成網(wǎng)絡(luò)G和判別網(wǎng)絡(luò)D,生成網(wǎng)絡(luò)G利用真實(shí)數(shù)據(jù)樣本x訓(xùn)練生成新的數(shù)據(jù)樣本G(z),判別網(wǎng)絡(luò)D是一個(gè)二分類器,判斷樣本是來自于原始數(shù)據(jù)x還是由生成網(wǎng)絡(luò)產(chǎn)生G(z)。GAN的目標(biāo)函數(shù)表示為:
Ez,P(z)[log(1-D(G(z)))]
(1)
式中:z是潛在表征;x是真實(shí)樣本;P表示概率分布;E表示期望。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)算法之一,包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)。CNN由卷積層、池化層和全連接層構(gòu)成,卷積層用來提取對(duì)象特征,池化層連接在卷積層后面,其對(duì)象是特征的局部區(qū)域,使特征具有一定的空間不變性。
本文選用在ImageNet中取得成功的VGG19網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu),VGG19網(wǎng)絡(luò)結(jié)構(gòu)主要的貢獻(xiàn)是采用了一個(gè)非常小的3×3的卷積核。
本文提出一種混合深度學(xué)習(xí)的多模態(tài)自然語言理解方法,幫助DSR更好地理解和執(zhí)行指令。該方法可以根據(jù)給定的指令語句和場(chǎng)景預(yù)測(cè)所有目標(biāo)和源對(duì),然后將預(yù)測(cè)數(shù)據(jù)進(jìn)行GAN訓(xùn)練,提高分類準(zhǔn)確性。混合深度學(xué)習(xí)多模態(tài)自然語言理解指令獲取框架如圖2所示。

圖2 混合深度學(xué)習(xí)多模態(tài)自然語言理解指令獲取框架
本文方法的輸入:指令句子和場(chǎng)景作為一個(gè)圖像;輸出:目標(biāo)-源對(duì)的可能區(qū)域,其中目標(biāo)指的是用戶希望機(jī)器人獲取的日常物品(如瓶子或水果),源指的是目標(biāo)的來源(如桌子或架子)。圖3給出了本文方法的具體流程,圖4給出了GAN擴(kuò)展框架。

圖3 本文方法的模型結(jié)構(gòu)

圖4 GAN擴(kuò)展框架
如圖3所示,對(duì)于每個(gè)候選目標(biāo)i={1,2,…,N}和候選源i′={1,2,…,M},假設(shè)它們各自的裁剪圖像和位置是可用的。因此,給定目標(biāo)候選者,輸入的集合為x(i)={xins(i),xv(i),xrel(i)},其中:xins(i)表示語言特征;xv(i)表示視覺特征;xrel(i)表示關(guān)系特征。在下文中,出于可讀性考慮,省略索引i,將x(i)寫為x。
輸入xrel表示目標(biāo)候選者與環(huán)境的關(guān)系特征(例如其他對(duì)象、場(chǎng)景中的位置、相對(duì)于源的位置)。根據(jù)數(shù)據(jù)集,xrel可能會(huì)有所不同。
視覺輸入xv對(duì)應(yīng)于目標(biāo)對(duì)象的裁剪圖像,CNN用于處理xv。并行地將xins進(jìn)行詞嵌入,然后由Bi-LSTM網(wǎng)絡(luò)進(jìn)行編碼。在對(duì)視覺、關(guān)系和語言輸入進(jìn)行編碼后需要一個(gè)通用的潛在表示形式來比較從CNN和Bi-LSTM中提取的特征,為此,使用了兩個(gè)多層感知器(MLP)。之后,基于語言和視覺MLP的輸出,使用第三個(gè)MLP預(yù)測(cè)目標(biāo)對(duì)象的來源。
在自然語言處理中詞嵌入是一種有效的特征學(xué)習(xí),常用的詞嵌入方法有Word2vec等。得到字嵌入后,字嵌入特征作為雙向LSTM的輸入。在本文中,使用子詞嵌入模型BERT[15]模型來初始化嵌入向量,而不是基于詞的嵌入模型。BERT模型是一種基于雙向變換器的語言編碼模型,具有更大的靈活性和魯棒性。BERT接受了35億單詞的預(yù)訓(xùn)練,因此對(duì)稀有單詞的數(shù)據(jù)稀疏性很強(qiáng)。另外,BERT沒有使用基于單詞的標(biāo)記化,而是使用子單詞標(biāo)記化,子單詞標(biāo)記化對(duì)單詞拼寫錯(cuò)誤更為穩(wěn)健。經(jīng)過BERT模型處理以后的詞特征是多層Bi-LSTM的輸入。
本文方法使用多層Bi-LSTM來編碼語言特征,可以更好地捕獲句子的上下文信息。同時(shí),使用19層網(wǎng)絡(luò)VGG19對(duì)場(chǎng)景視覺特征進(jìn)行編碼。這些網(wǎng)絡(luò)連接到兩個(gè)人工神經(jīng)網(wǎng)絡(luò)中的多層感知器(Multi-Layer Perceptron,MLP)網(wǎng)絡(luò),即MLP-I和MLP-V,兩者的輸出用于預(yù)測(cè)目標(biāo)的可能性。兩個(gè)MLP的輸出OI表示視覺特征,OV表示語言特征。源的預(yù)測(cè)由OI和OV通過一個(gè)MLP-U預(yù)測(cè)得到。
GAN擴(kuò)展處理之前的輸出可以表示為:
Y={ytarg,ysrc}
(2)
式中:ytarg表示目標(biāo)預(yù)測(cè);ysrc表示源預(yù)測(cè)。此時(shí)的損失函數(shù)J定義如下:
J=λ1Jtarg+λ2Jsrc
(3)
式中:λ1和λ2表示加權(quán)參數(shù);Jtarg和Jsrc分別是目標(biāo)和源的交叉熵?fù)p失函數(shù)。Jtarg和Jsrc可表示為:
(4)

為了提高DSR對(duì)指令任務(wù)中目標(biāo)對(duì)象預(yù)測(cè)的準(zhǔn)確率,使用GAN對(duì)數(shù)據(jù)進(jìn)行擴(kuò)展和分類,GAN框架包含兩個(gè)對(duì)抗網(wǎng)絡(luò),一個(gè)生成器G和一個(gè)鑒別器D。生成器G通過模仿給定的數(shù)據(jù)分布來創(chuàng)建人工數(shù)據(jù),鑒別器D預(yù)測(cè)輸入數(shù)據(jù)是真實(shí)的還是偽造的。憑借其對(duì)抗目標(biāo),訓(xùn)練了G生成更現(xiàn)實(shí)的數(shù)據(jù),同時(shí)增強(qiáng)了D的辨別能力。
如圖4所示,GAN的輸入有三個(gè):語言特征OI、非語言特征OV和一個(gè)服從正態(tài)分布隨機(jī)抽樣的多維輸入z。則GAN的輸入集合可以表示為:
xGAN={z,xreal=(OI,OV),xfake=G(z,OV)}
(5)
為了對(duì)真實(shí)數(shù)據(jù)xreal和偽數(shù)據(jù)xfake進(jìn)行分類,從源標(biāo)志S∈{fake,real},用x=xreal或x=xfake交替輸入鑒別器D,D的輸出可表示為D(x)=PD(S=real|x),G和D的損失函數(shù)分別為JG和JD,定義如下:
(6)
在訓(xùn)練過程中,D和G的訓(xùn)練是交替進(jìn)行的。首先訓(xùn)練D的參數(shù),然后訓(xùn)練G的參數(shù)。在訓(xùn)練G的參數(shù)時(shí),D的參數(shù)是固定的。由G生成的人工數(shù)據(jù)可以用來增強(qiáng)和改進(jìn)D中的分類器網(wǎng)絡(luò),因此,D不僅可以區(qū)分xreal和xfake,而且網(wǎng)絡(luò)還可以通過預(yù)測(cè)候選目標(biāo)的可能性來執(zhí)行分類任務(wù)。因此,除了PD(S),D還有第二個(gè)輸出PD(ytarg),這是目標(biāo)的可能性。通過GAN進(jìn)行擴(kuò)展以后,本文算法的損失函數(shù)修改為:
JD=JG+λJ
(7)
式中:λ是加權(quán)系數(shù);J是式(3)中定義的交叉熵?fù)p失函數(shù)。
在實(shí)驗(yàn)部分,對(duì)本文方法中參數(shù)進(jìn)行設(shè)置,使用24層預(yù)訓(xùn)練的BERT模型進(jìn)行子單詞標(biāo)記,嵌入向量的大小為1 024。使用VGG19預(yù)訓(xùn)練模型作為CNN,在MLP-1和MLP-V中,為每層應(yīng)用了批處理標(biāo)準(zhǔn)化和ReLU激活函數(shù),在MLP-S中,除了使用ReLU激活功能外,最后一層還使用了Softmax函數(shù)。GAN中發(fā)生器G和鑒別器D均由具有四層ReLU激活函數(shù)的層組成,并將批量歸一化應(yīng)用于這些層。G的輸出層是tanh激活函數(shù),而Softmax函數(shù)應(yīng)用于D的輸出層,方法權(quán)重λ1=1、λ2=0.7。具體參數(shù)由多次實(shí)驗(yàn)調(diào)整得出,參數(shù)設(shè)置如表1所示。

表1 本文方法參數(shù)設(shè)置
為了評(píng)估本文方法在真實(shí)情況下的性能,將本文方法應(yīng)用于PFN-PIC數(shù)據(jù)集[12],其中訓(xùn)練集中有89 861個(gè)句子和25 517個(gè)邊界框,而驗(yàn)證集中有898個(gè)句子和352個(gè)邊界框。圖5給出了在不同正負(fù)樣本率γ條件下,本文方法使用BERT模型和未使用BERT模型的指令目標(biāo)分類準(zhǔn)確率。

圖5 本文方法的目標(biāo)分類準(zhǔn)確率
可以看出使用了基于雙向變換器的語言編碼BERT模型,使得對(duì)指令的解析更加準(zhǔn)確,這是因?yàn)锽ERT接受了35億單詞的預(yù)訓(xùn)練,因此對(duì)稀有單詞的數(shù)據(jù)稀疏性很強(qiáng)。另外,該模型是基于子單詞,對(duì)錯(cuò)誤拼寫具有更好的魯棒性。
為了驗(yàn)證本文方法的有效性,將本文方法與現(xiàn)有其他方法進(jìn)行比較,其他方法包括:CNN+LSTM深度學(xué)習(xí)方法[12]、基于規(guī)則和機(jī)器學(xué)習(xí)的語義分析方法[13],以及基于CNN的多模態(tài)融合的人機(jī)交互指令分析方法[14]。表2給出了在不同正負(fù)樣本率γ條件下,所有方法的準(zhǔn)確率比較。

表2 不同方法下指令理解的目標(biāo)和源準(zhǔn)確率
可以看出本文方法對(duì)于自然語言獲取任務(wù)中目標(biāo)對(duì)象預(yù)測(cè)的準(zhǔn)確率在不同γ下都具有最高的準(zhǔn)確率,文獻(xiàn)[12]方法次之。這是因?yàn)槲墨I(xiàn)[13]使用了機(jī)器學(xué)習(xí)方法,文獻(xiàn)[14]使用了CNN框架,從單一的方法對(duì)指令進(jìn)行解析,文獻(xiàn)[12]使用了CNN+LSTM的方法,從指令和場(chǎng)景進(jìn)行分析,但是本文方法采用了CNN+Bi-LSTM+GAN混合深度學(xué)習(xí)方法,將語言特征和非語言特征分別進(jìn)行編碼和預(yù)測(cè),并進(jìn)行GAN數(shù)據(jù)擴(kuò)展,進(jìn)一步提高抓取任務(wù)中目標(biāo)對(duì)象預(yù)測(cè)的準(zhǔn)確率。另外,本文可以給出99.8%的源預(yù)測(cè)準(zhǔn)確率;除了本文方法和文獻(xiàn)[12]中方法能夠給出源預(yù)測(cè),其他兩種方法只能夠?qū)δ繕?biāo)進(jìn)行預(yù)測(cè)。
為了驗(yàn)證本文方法的實(shí)際效果,采集實(shí)際圖片對(duì)方法進(jìn)行驗(yàn)證,對(duì)圖6中待拿取物品進(jìn)行預(yù)測(cè),框中物品為目標(biāo)物品。

(a)電腦桌上酸奶 (b)電腦桌上紅色筆帽的筆
本文方法能夠?qū)D6中項(xiàng)目提供正確的預(yù)測(cè),這些預(yù)測(cè)圖片是實(shí)際采集的圖片,說明本文方法對(duì)于真實(shí)的拿取場(chǎng)景中物品預(yù)測(cè)的準(zhǔn)確性和有效性。
為了對(duì)本文模型時(shí)間性能進(jìn)行實(shí)驗(yàn),對(duì)PFN-PIC數(shù)據(jù)集部分實(shí)驗(yàn)數(shù)據(jù)進(jìn)行指令理解和分類,得到的時(shí)間性能如表3所示。

表3 時(shí)間性能比較
可以看出本文模型用時(shí)最長,這是因?yàn)楸疚牟捎昧薈NN+Bi-LSTM+GAN混合深度學(xué)習(xí)模型,訓(xùn)練和學(xué)習(xí)時(shí)間都比其他三種方法長,但是本文混合深度學(xué)習(xí)模型對(duì)于預(yù)測(cè)的準(zhǔn)確性最高,未來一部分工作集中在縮短本文模型時(shí)長方面。
為提高DSR自然語言指令分類精度,提出一種混合深度學(xué)習(xí)的多模態(tài)自然語言指令分類方法,該方法從指令、場(chǎng)景和關(guān)系特征多模態(tài)入手,使用Bi-LSTM對(duì)語言指令進(jìn)行編碼,使用CNN對(duì)視覺特征和關(guān)系特征進(jìn)行編碼,經(jīng)過MLP處理,得到目標(biāo)-源對(duì)的預(yù)測(cè),為了提高DSR對(duì)NLP指令分類的準(zhǔn)確性,使用GAN對(duì)數(shù)據(jù)進(jìn)行擴(kuò)展和分類。實(shí)驗(yàn)結(jié)果表明,本文方法提高了獲取任務(wù)中目標(biāo)對(duì)象預(yù)測(cè)的準(zhǔn)確率且性能優(yōu)于現(xiàn)有其他方法,隨著正負(fù)樣本率增加,本文方法對(duì)指令分類的準(zhǔn)確率增加,驗(yàn)證了本文方法的可行性與有效性。未來將使用注意力機(jī)制來擴(kuò)展本文方法。