999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖像識別的跨模態實體鏈接模型

2022-01-01 00:00:00陳燁周剛章夢禮朱秀寶黃寧博
計算機應用研究 2022年5期

摘 要: 提出了一個基于圖像識別的跨模態實體鏈接模型。首先,利用人機交互的圖像目標截取模塊實現圖像目標指代,支持多目標圖像的輸入,將復雜的目標檢測任務簡化為圖像識別分類任務。然后,設計了一個基于輕量快速的MobileNetV2網絡訓練的圖像識別模塊,在自建目標圖像數據集環境下進行測試。實驗結果驗證了該模型能夠減小模型規模,降低對硬件的要求,通過有監督的數據增強,在少樣本訓練條件下達到了94.06%的識別準確度,緩解了數據缺乏的問題。最后,進一步借助模型輸出的目標實體命名標簽,完成跨模態實體鏈接任務,能夠有效支撐圖像輸入條件下的知識圖譜問答任務。

關鍵詞: 知識圖譜; 圖像識別; 跨模態; 實體鏈接

中圖分類號: TP391"" 文獻標志碼: A

文章編號: 1001-3695(2022)05-022-1422-05

doi:10.19734/j.issn.1001-3695.2021.11.0464

Cross-modal entity linking model based on image recognition

Chen Ye, Zhou Gang, Zhang Mengli, Zhu Xiubao, Huang Ningbo

(Academy of Data amp; Target Engineering, Information Engineering University, Zhengzhou 450001, China)

Abstract: This paper proposed a cross-modal entity linking modal based on image recognition.Firstly,it introduced a human-computer interaction image target interception module to realize the object mentioned,which supported multi-target image input and simplified the complex object detection task to image recognition and classification.Then,it designed and tested an image recognition module based on MobileNetV2 in the environment of self-built target image dataset.The results verify that the proposed model can not only reduce the scale of model,but also the requirement of hardware.Through a supervised data enhancement,the model achieves a recognition accuracy of 94.06% under the condition of few-sample training,alleviating the lack of data.Furthermore,the cross-modal entity linking task can be completed by using the target entity named label output from the model,which can effectively support the knowledge graph Qamp;A task under the condition of image input.

Key words: knowledge graph; image recognition; cross-modal; entity linking

0 引言

在基于知識圖譜的問答應用中需要解析問題以獲取與知識圖譜實體所對應的對象指代。現有的方法主要針對文本信息進行實體鏈接(entity linking,EL)[1],將從給定資源中抽取的目標對象與知識圖譜中對應的實體進行匹配。在此之前,通常需要以文本形式標志命名實體的邊界,將問題中指代實體的關鍵詞識別出來[2]。由于名稱的可變性和實體的模糊性,通過簡短粗略的文本獲取準確的實體指代具有一定挑戰性。在社交媒體、百科知識和多模態知識圖譜(multi-modal knowledge graph)等現實領域數據中,通常同時使用文本和視覺信息描述實體,其中視覺特征能夠輔助文本語義消歧,提供更多細節。以文本和圖像數據為主的多模態知識圖譜能夠為多模態異構數據環境下的智能問答應用提供大規模、結構化的數據支撐,具有較好的應用前景[3]。在以圖像為問答輸入的場景下,圖像中可能包含單個或多個潛在目標對象,需要結合跨模態的信息解決實體鏈接問題,這一任務也被稱為跨模態實體鏈接(cross-modal entity linking)。

現有涉及多種模態數據的實體鏈接工作主要涉及文本與視覺兩種模態,建立在多模態信息抽取和表示學習的基礎上。Moon等人[2]提出一種針對短社交平臺的實體鏈接方法,分別利用卷積神經網絡和長短時記憶(long short term memory,LSTM)網絡[4]提取視覺特征和文本特征并獲得對應表示,根據實體的編輯距離相似性來判斷兩個實體提及是否是相同。較于傳統只利用文本的實體鏈接方法,該方法面向短社交文本并融合圖片信息,效果更優。Zhang等人[5]提出CAN(adaptive co-attention network),針對四種類型的實體從推特中爬取并標注了包含配圖的數據集,拓展了傳統的Bi-LSTM+CRF(conditional random field)模型,在CRF層之前對文本和圖片的表示進行了互注意力,加入門控機制與過濾器機制來控制每個詞對圖片和文本的偏好程度。王會勇等人[6]提出一種基于聯合知識表示學習的多模態實體對齊方法ITMEA,聯合圖像和文本數據,采用知識表示學習模型在低維語義空間中迭代地學習已對齊多模態實體之間的關系,從而實現多模態的實體對齊。Wei等人[7]提出一種多模態交叉注意網絡MMCA,通過在一個統一的深度模型中聯合建模圖像區域和文本的內部模態和中間模態關系來進行跨模態匹配,利用每個模態內部的關系加上圖像區域和文本之間的模間關系來互補和增強圖像及文本匹配。

問答應用中,輸入圖像涉及多個潛在目標時,目標檢測任務通常采用計算圖像的語義標簽信息[8]和內容特征的聯合相似度實現檢測實體的對齊。利用區域特征網絡提取圖像的區域視覺特征有利于縮小候選實體的范圍,使用注意力機制能夠減小噪聲影響,但需要進行復雜的預訓練工作進行支撐,任務復雜度高。對于實際一對多、多對多的多模態實體關系發現仍面臨噪聲處理能力不足和先驗數據不充分的挑戰,并且相較于單模態的研究,多模態數據集的構建更困難,通常需要昂貴的人工標注,大規模的多模態研究面臨著訓練數據缺失的難題,難以支撐細粒度識別分類任務。本文針對以文本和圖像數據為主的領域多模態知識圖譜作為數據源的問答應用開展研究。以軍事領域中武器裝備的多模態知識圖譜為例,此類目標實體的圖像特征通常具有靜態穩定性,且不同大類的實體之間視覺特征較為明顯,極具辨識度,例如飛行器與艦船艦艇、坦克裝甲車輛之間較易分辨。但同系列裝備遵循相同的命名規則,極易混淆,故從文本描述中進行細粒度問題指代識別具有一定的挑戰性,例如區別不同型號的戰斗機。因此,將實體圖像作為輸入是此類領域智能問答的重要手段之一[9]。

在輸入為圖像的問答場景下,進行跨模態的實體鏈接主要面臨三個問題:a)目標實體的指代,當輸入圖像中存在多個潛在目標時,如何準確確定問題指代的目標實體;b)異構問題,如何處理圖像和文本之間的跨模態問題;c)數據集缺乏問題,如何在數據樣本有限的條件下,達到細粒度的目標識別效果。

綜合以上問題,為了減小模型復雜度,提升整體效率,本文提出一個基于圖像識別的跨模態實體鏈接模型,主要由目標檢測模塊和輕量化圖像識別模塊組成,并設定實體鏈接規則。通過在圖像輸入環節設計人機交互機制,利用目標實體截取算法確定用戶的問題指代,將復雜的目標檢測任務簡化為關鍵目標的圖像識別任務;基于輕量快速的MobileNetV2[10]網絡訓練圖像識別模塊,并貢獻一個飛行器模型的多視角圖像數據集進行驗證。實驗結果表明,通過有監督的數據增強,本文模型在少樣本訓練條件下達到了94.06%的識別準確度,能夠有效降低對大規模訓練數據的要求。通過實體鏈接規則對目標實體標簽的映射,模型在有效性和可用性上均優于同類模型,從而利用多模態知識圖譜中實體對應的圖像數據集進行驅動,能夠有效支撐圖像輸入條件下的知識圖譜問答任務。

1 相關工作

1.1 領域多模態知識圖譜

知識圖譜是結構化的語義知識庫,以符號的形式描述現實世界中的實體及其相互關系,其基本單元為三元組,由頭實體、尾實體以及兩者之間的有向關系組成[11]。領域知識圖譜(domain-specific knowledge graph,DKG)以行業數據為主,具有領域特殊性,其構建過程中專家參與度較高,自動化程度有限,關聯的知識包含靜態知識和動態知識。由于數據復雜性,構建領域知識圖譜通常需要結合自頂向下和自底向上兩種方式[12]。多模態知識圖譜在傳統知識圖譜的基礎上,融合并構建了多種模態的實體,包括但不限于文本模態和圖像模態的實體,挖掘并組織多模態實體之間的語義關系。在多模態數據環境下,同一對象的跨模態數據之間既有模態特性,又有語義共性,即在數據表現形式上有各自模態的特征,而在語義指代上有跨越模態的一致性。

基于現有研究對多模態知識圖的定義[3,13],本文中將多模態知識圖譜定義為具有多模態化的實體和屬性的知識圖譜,視覺等多模態數據具有實物演示、消除歧義、補充細節的作用。文中使用的武器裝備多模態知識圖譜可視為包含經特征提取的實體圖像數據集合的領域知識圖譜。每個實體的圖像數據以集合的方式存儲,數據單元可形式化表示為〈E,R,V,Imgs〉。其中,E代表文本實體,R代表一系列屬性和關系的集合,V代表屬性值,Imgs代表實體的圖像數據集。圖1為武器裝備多模態知識圖譜的形式化定義示意圖。不同實體的Imgs之間存在特征區分,定義為知識單元在視覺模態下的知識分面,通過知識分面能夠區分不同實體。本文中利用圖像識別模型對實體的圖像數據集提取特征來區分圖像數據集的知識分面。

1.2 圖像識別

圖像的特征主要包含顏色、紋理、形狀和空間關系四個部分,通過這些特征可以描述一張圖像。圖像識別任務的技術原理是模擬人類對圖像的識別過程,通過提取圖像的重要特征比對相似度從而進行分類[14,15]。相較于人類,機器能夠達到更快的識別速率和更大的識別規模。

21世紀以來,機器學習的方法開始在圖像識別任務中廣泛應用,機器自動從海量的數據中總結歸納圖像的特征,從而進行識別和判斷,并誕生了如ImageNet[16]等評測數據集;2010年以后,借助深度學習的力量,基于神經網絡的圖像識別成為主流,產生了多種類型的卷積神經網絡(convolutional neural network,CNN)用于學習圖像的特征[17]。早期具有代表性的LeNet-5[18]在手寫體數字和字母的識別中取得了非常高的精度,在車輛號牌識別等場景中得到實際應用。后續研究陸續提出AlexNet[19]、VGG[14]、GoogLeNet[20]、ResNet[21]和CapNet[22]等卷積神經網絡,主要通過增加網絡的深度或者對卷積和池化操作進行變形,對圖像的特征提取能力進行了拓展,極大地提高了圖像識別的精度。但深層的網絡也面臨著參數較多,需要較大算力支持的問題,例如VGG16網絡權重為490M,ResNet152網絡權重約為644M,其場景適用性具有一定限制。故本文選用輕量化的MobileNetV2網絡進行圖像識別模型的訓練。

1.3 圖像目標檢測模型

目標檢測任務基于圖像分類,通過圖像上的像素網格將圖像中目標區域劃分為多個類別。基于區域卷積神經網絡的系列算法檢測效果較優,代表模型有R-CNN(region-based convolutional neural network)[23]等。早期的R-CNN主要利用滑動窗口通過選擇性搜索功能生成一兩千個候選區域,并采用CNN對候選區域進行特征的提取,利用SVM對特征區域進行分類,實現了圖片多目標檢測和識別,但其步驟比較煩瑣并且時間成本高,圖2所示為R-CNN的基本結構;隨后Girshick[24]改進的Fast R-CNN中不再使用SVM分類器分類,改為softmax代替分類,增加了RoI(region of interest)池化層,提升了精度和圖像處理速度,但是并沒有實現端到端的框架。Ren等人[25]在Fast R-CNN的基礎上,進一步提出區域生成網絡(region proposal network,RPN),改進了選擇性搜索生成過多候選框的問題,提出的Faster R-CNN模型在實現端到端框架的同時提升了算法精度,但是該模型的計算量依舊比較大。本文主要參照了基于區域卷積的思想,針對問答應用場景,引入人機交互的目標圖像截取算法,在多潛在目標條件下支持用戶主動進行目標框選,將復雜的多區域目標檢測簡化為單目標的圖像識別。

2 基于圖像識別的實體鏈接模型

2.1 整體框架

本文提出的基于圖像識別的實體鏈接模型在設定的實體鏈接規則下主要由目標檢測和輕量化圖像識別兩個基本模塊組成。目標檢測模塊的主要功能是從輸入的圖片中定位到目標實體,針對單圖單實體輸入,直接利用卷積神經網絡提取全圖的特征向量檢測出目標實體;針對單圖多實體輸入,本文設計了一個目標實體截取算法來選擇最具顯著性的目標實體,然后采用區域目標檢測算法得到選取區域的特征表示。目標檢測模塊對原始的輸入圖片進行了過濾,裁剪了冗余信息,為后續的圖像識別模塊提供了準確的目標實體特征。在輕量化圖像識別模塊,針對傳統卷積神經網絡參數較多,需要較大的算力支持這一問題,利用MobileNetV2算法訓練了一個輕型的圖像識別模型,能夠識別用戶手動框選的目標實體特征區域,從而作出精準的預測。實體映射模塊根據圖像識別模塊輸出的目標命名標簽,根據實體鏈接規則,將命名標簽映射到對應的知識圖譜實體名稱上,完成實體鏈接工作。模型的整體框架如圖3所示。

2.2 目標檢測模塊

用戶以圖像輸入形式進行提問時,圖像內潛在目標與知識圖譜實體存在一對一或多對多的情況,本文將實際輸入內容劃分為以下兩種具體場景:a)單圖單實體的輸入,即一張圖像中僅包含一個與知識圖譜對應的目標實體,輸入的圖像通常目標明確,并且背景相對有利于突出目標對象的主體;b)單圖多實體輸入,即一張圖像中存在多個潛在目標實體,輸入的圖像中同時包含多個指代不明的對象,或者目標主體與背景之間容易混淆。基于此,為實現目標端到端查詢,將問題形式都簡化為與知識圖譜實體一對一的情況,針對單圖多實體輸入,設計了一個目標實體截取算法來提取查詢所需目標實體,刪除冗余實體信息,突出目標實體的區域特征。目標實體截取算法如算法1所示。當輸入為單圖多實體的情況下,選擇簡單的人機交互方法,通過偵測屏幕中的鼠標運動進行框選,圖像輸入目標精確到用戶選擇的目標區域,從而簡化為單圖單實體輸入。首先,調用Python PIL庫中的ImageGrab進行全屏截圖緩存;其次,監視鼠標活動,用戶通過鼠標移位對感興趣目標進行框選,記錄移位開始坐標(xstart,ystart)、結束坐標(xend,yend);然后,將框選范圍作為邊界框,刪除全屏截圖,保留框選截圖,并將用戶框選結果傳輸給圖像識別模塊作為輸入。特別地,本文的目標實體截取算法選取范圍不再局限于用戶上傳至系統的單圖多實體圖像,更能夠支持對桌面中任意感興趣區域中的目標進行框選,并自動保存上傳到目標圖像識別系統進行識別分類。

算法1 目標實體截取

輸入:多潛在目標圖片。

輸出:單目標圖片。

a)screen←獲取全屏圖像;

b)偵聽鼠標事件; //人工框選目標對象區域

(xstart,ystart)←s鼠標左鍵拖拽開始位置坐標;

(xend,yend)←s鼠標左鍵拖拽釋放位置坐標;

c)cut←截取screen從(xstart,ystart)至(xend,yend)部分,丟棄全屏緩存;

d) return cut; //將截取圖像作為結果返回

本文提出的目標檢測模塊通過對輸入圖像的簡單人機交互獲取針對性的目標區域,避免了主流區域目標檢測算法在目標定位中對算力的過多占用。該模塊能夠直接進行全圖特征提取和圖像識別,極大簡化了任務的工作量,在領域目標識別中具有較強的可移植性。

2.3 輕量化圖像識別模塊

目標檢測模塊對輸入圖片中用戶的目標進行了識別、精煉和提取,得到了目標實體的區域圖像。在輕量化的圖像識別模塊中,需要對區域圖像進行進一步的信息提煉,獲取圖像在向量空間的顯著特征,以支撐后續的分類任務。

針對圖像的特征抽取,傳統卷積神經網絡參數較多,需要較大的算力支持。與傳統卷積神經網絡結構不同,MobileNet的基本單元為深度可分離卷積(depthwise separable convolution),由DW(depthwise convolution)和PW(pointwise convolution)兩個更小的操作組成[26]。圖4為標準卷積過濾與深度可分離卷積過濾的對比。其中DW與標準卷積不同,針對每個輸入通道采用不同的卷積核,而標準卷積的所有通道采用一致的卷積核;PW是采用1×1卷積核的標準卷積。在整體卷積效果不變的情況下,MobileNet能夠縮減模型參數量,降低算力要求。MobileNetV2是對MobileNet的改進,引入了反向的殘差結構和一個線性瓶頸層,進而減小了模型的體量[9]。

基于此,本文在輕量化的圖像識別模塊中,利用MobileNetV2算法構造了一個輕型的圖像識別模型。此外,本文還采用了預訓練的策略來減少模型對輸入圖片進行特征提取所消耗的時間,進一步增加了整體的可用性。具體地,在數據集訓練階段,以型號標簽來命名實體,賦予模型更多的先驗知識。在預測階段,控制模型輸出目標實體的命名標簽,通過計算損失來優化模型。本文人機交互的圖像識別網絡基本結構與R-CNN對比如圖5所示,上方為R-CNN基本結構,下方為方案提出網絡的基本結構。以單圖多實體輸入為例,在目標檢測模塊通過人機交互策略(手動框選目標實體區域)選取了目標實體。然后將選取的實體圖片輸入到圖像識別模塊,利用預訓練的MobileNetV2來提取目標實體的特征。最后,通過softmax分類器來處理目標實體特征,得到輸入圖片實體的命名標簽。

2.4 實體鏈接規則

與文獻[13]類似,在領域多模態知識圖譜構建階段為知識圖譜中每個實體生成唯一的ObjectID,實體名稱與之相對應,且便于數據庫索引。在圖像識別模塊的預訓練階段,將ObjectID作為對應實體圖像數據集的命名標簽進行預訓練,賦予模型更多的預備知識。圖像識別模塊對潛在的目標對象檢測的輸出結果即為ObjectID,通過映射即匹配到知識圖譜對應的實體中,完成知識圖譜查詢的實體鏈接工作,為問答結果提供額外的知識。

3 實驗

3.1 實驗設置

3.1.1 數據集準備

真實軍用武器裝備是三維的實物,外形特征較為明顯,為貼近真實任務場景,本文借助3D飛行模擬器軟件PhoenixRC,采用人工截圖的方法,分別從3D模型前則、左前側45°、左側、左后側45°、后側和正上共6個視角方位對60個不同型號的飛行器3D模型進行截圖,并命名為Model-Plane-60,數據集共包含360張飛行器模型的固定視角圖,每個型號對應6張圖像。圖6所示為數據集圖像示例。

對深度神經網絡而言,通常訓練數據集規模越大,經過訓練得到的模型越精確[17]。在模態數據匱乏的限制下,有限的圖像數據不利于模型效果的提升,需要擴大訓練樣本的規模。同時防止模型過擬合,利用數據增強技術對圖像數據集進行擴充,考慮到飛行器等裝備外形在特定角度如正視角度下具有對稱性,通過鏡像會產生數據集的冗余,因此文本中只采用鏡像和固定角度旋轉的數據增強方法進行擴充,操作獲得的數據集較原數據集進行了4倍數據量擴充,得到包含1 440張飛行器模型的固定視角圖,每個型號對應24張圖像。本文中將增強后的數據集命名為Model-Plane-60-4enhanced。圖7所示為數據增強后該數據集圖像示例。數據送入模型訓練之前,將數據集隨機劃分為訓練集、驗證集,比例為4:1。

3.1.2 實驗環境設置

實驗在Windows 10操作系統上進行,硬件環境為Intel CoreTM i7-7700 CPU,32 GB內存,GTX 1050 Ti顯卡,基于Python 3.7語言,在TensorFlow框架下進行模型的訓練和驗證。分別在標準CNN和MobileNetV2網絡上對數據集進行訓練,利用在ImageNet數據集預訓練所得到的權重對模型進行初始化。將輸入圖片統一設置成(224,224,3)大小,采用3×3卷積核進行圖像特征提取,采用Adam優化器優化網絡模型,使用softmax函數進行結果分類。

3.1.3 評估指標

參照文獻[27]中的評估方法,本文實驗根據精確率(precision)、召回率(recall)和準確率(accuracy)等指標來評估模型的性能,其定義具體如下:

precision=TPTP+FP,recall=TPTP+FN(1)

accuracy=TP+TNTP+TN+FP+FN(2)

其中:TP(true positive)表示被模型預測為正值的正樣本;FP(1 positive)表示被模型預測為正值的負樣本;FN(1 ne-gative)表示被模型預測為負值的正樣本;TN(true negative)表示被模型預測為負值的負樣本。同時將模型訓練時間(s)、圖像識別驗證速率(ms/step)、模型規模(KB)以及參數量納入評估范圍進行對比。

3.2 實驗結果與分析

實驗首先使用Model-Plane-60數據集進行訓練,以模型的識別準確率為主,對比CNN與MobileNetV2網絡下圖像識別的結果。由表1可知,相較于標準卷積神經網絡,文本模型選取的MobileNetV2網絡在訓練效率和模型規模上都占優,同時圖像識別任務的準確率為57.38%也有較大優勢。但對于任務應用場景而言,準確率還有待提高,這是由于數據集中圖像樣本量不足所導致。因此下一步實驗使用4倍數據量擴充后的圖像數據集Model-Plane-60-4enhanced進行實驗。

武器裝備類實體的外觀規則具有靜態對稱性,鏡像后的圖片與原圖片存在高度相似的情況。為了緩解由于裝備外形對稱,導致驗證數據集中圖像與訓練集數據集內圖像高度相似的情況,實驗中對數據增強后的自建數據集進行多次隨機劃分,取4次實驗結果平均值作為最終評估結果。如表1所示,通過有監督的數據增強,在圖像識別任務上,基于標準CNN和MobileNetV2兩類網絡的識別準確率都有大幅提高,其中MobileNetV2上4次訓練的平均準確率達到了94.06%,較數據增強前提高了36.68%。并且模型規模僅有約10 M大小,約為使用標準卷積核進行圖像特征提取的CNN模型規模的1/9。模型規模減小主要得益于MobileNet系列網絡使用的深度可分離卷積,在采用3×3卷積核的情況下,使用深度可分離卷積相較于標注卷積能夠減少約8倍計算量[26]。

圖8所示為數據增強后自建圖像數據集上訓練和驗證準確率及交叉熵演變過程對比,經過數據增強,模型快速收斂并且達到94.06%的識別準確率,數據增強取得明顯效果。參考Wei等人[28]的工作,使用分類結果的混淆矩陣進行觀察,橫坐標代表分類結果的預測標簽,縱坐標代表分類結果的真實標簽。圖9所示分別為CNN和MobileNetV2下對目標實體分類結果的混淆矩陣熱力圖,熱力圖顏色越深表示識別準確率越高,實驗結果中特別是MobileNetV2網絡下目標分類預測標簽與真實標簽基本一致(見電子版)。其中型號“Lcon A5”與“Lcon A5-water”兩個目標實體的混淆率較高,經人工分析,兩者為同一型號飛機的水陸兩用版本。圖10所示為兩者側視圖對比,圖像外觀特征區別僅在起落架上。進一步,從前期工作構建的領域多模態知識圖譜中隨機選取35型涵蓋多種類型武器裝備的圖像數據集,并在MobileNetV2網絡下訓練圖像識別模型,預測結果混淆矩陣如圖11所示。此時未作數據增強,圖像數據集從開放域中獲取,各類型裝備實體對應約20張圖像。模型整體識別準確率在70%左右,各大類目標實體之間具有較好的區分度。由于數據敏感性,從公開域獲取的部分裝備實體缺乏足夠的圖像數據,但本文提出的模型在實際基于領域多模態知識圖譜的應用中仍具有較大可行性。

4 結束語

本文提出了一種基于圖像識別的跨模態實體鏈接方法,設計了一個人機交互的圖像截取模塊實現圖像目標指代,并簡化任務;此外,還構建了一個基于MobileNetV2的圖像識別模塊,在自建數據集上,經實驗驗證了該模型能夠減小模型規模,降低對硬件的要求,便于將功能本地化,具有較強的可移植性。進一步,通過有監督的數據增強能夠在少樣本條件下達到94.06%的領域目標圖像識別準確度,緩解數據缺乏問題。在本文設計的實體鏈接規則下,圖像識別模塊訓練所用圖像數據集從多模態知識圖譜中獲取,識別出的裝備命名標簽與知識圖譜中實體名相對應,將目標的圖像識別結果映射到知識圖譜的實體名中即可完成跨模態實體鏈接任務,支撐進一步問答任務。在實際基于武器裝備多模態知識圖譜數據的應用中達到了約70%的識別準確率,證明所提出的基于圖像預訓練的跨模態實體鏈接方案在實際操作中具有較大的可行性。

本文的工作主要是建立在基于知識圖譜的先驗知識上,知識圖譜實體與圖像數據集已經進行對齊,并且在圖像識別模型的橫向選擇上相對有限。在接下來的研究中,針對擴展模型的泛化性能,將繼續進行多模態融合相關的實體鏈接應用;針對圖像內容的深層理解,將開展基于圖像內容的視覺問答應用。

參考文獻:

[1]Shen Wei,Wang Jianyong,Han Jiawei.Entity linking with a know-ledge base:issues,techniques,and solutions[J].IEEE Trans on Knowledge and Data Engineering,2014,27(2):443-460.

[2]Moon S,Neves L,Carvalho V.Multimodal named entity recognition for short social media posts[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.2018:852-860.

[3]Liu Ye,Li Hui,Garcia-Duran A,et al.MMKG:multi-modal knowledge graphs[C]//Proc of European Semantic Web Conference.Cham:Springer,2019:459-474.

[4]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.

[5]Zhang Qi,Fu Jinlan,Liu Xiaoyu,et al.Adaptive co-attention network for named entity recognition in Tweets[C]//Proc of the 32nd AAAI Conference on Artificial Intelligence.2018.

[6]王會勇,論兵,張曉明,等.基于聯合知識表示學習的多模態實體對齊[J].控制與決策,2020,35(12):2855-2864. (Wang Huiyong,Lun Bing,Zhang Xiaoming,et al.Multi-modal entity alignment based on joint knowledge representation learning[J].Control and Decision,2020,35(12):2855-2864.)

[7]Wei Xi,Zhang Tianzhu,Li Yan,et al.Multi-modality cross attention network for image and sentence matching[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10938-10947.

[8]王雪鵬,劉康,何世柱,等.基于網絡語義標簽的多源知識庫實體對齊算法[J].計算機學報,2017,40(3):701-711. (Wang Xuepeng,Liu Kang,He Shizhu,et al.Multi-source knowledge bases entity alignment by leveraging semantic tags[J].Chinese Journal of Computers,2017,40(3):701-711.)

[9]Pham P T,Moens M F,Tuytelaars T.Cross-media alignment of names and faces[J].IEEE Trans on Multimedia,2010,12(1):13-27.

[10]Sandler M,Howard A,Zhu Menglong,et al.MobileNetV2:inverted residuals and linear bottlenecks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:4510-4520.

[11]劉嶠,李楊,段宏,等.知識圖譜構建技術綜述[J].計算機研究與發展,2016,53(3):582-600. (Liu Qiao,Li Yang,Duan Hong,et al.Knowledge graph construction techniques[J].Journal of Computer Research and Development,2016,53(3):582-600.)

[12]杭婷婷,馮鈞,陸佳民.知識圖譜構建技術:分類、調查和未來方向[J].計算機科學,2021,48(2):175-189. (Hang Tingting,Feng Jun,Lu Jiamin.Knowledge graph construction techniques:taxonomy,survey and future directions[J].Computer Science,2021,48(2):175-189.)

[13]Wang Meng,Qi Guilin,Wang Haofen,et al.Richpedia:a comprehensive multi-modal knowledge graph[C]//Proc of Joint International Semantic Technology Conference.Cham:Springer,2019:130-145.

[14]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[EB/OL]. (2015-04-10).https://arxiv.org/abs/1409.1556.

[15]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Compu-ter Vision and Pattern Recognition.2016:770-778.

[16]Deng Jia,Dong Wei,Socher R,et al.ImageNet:a large-scale hierarchical image database[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2009:248-255.

[17]張順,龔怡宏,王進軍.深度卷積神經網絡的發展及其在計算機視覺領域的應用[J].計算機學報,2019,42(3):453-482. (Zhang Shun,Gong Yihong,Wang Jinjun.The development of deep convolution neural network and its applications on computer vision[J].Chinese Journal of Computers,2019,42(3):453-482.)

[18]LeCun Y.LeNet-5,convolutional neural networks[EB/OL].(2010-03-02).http://yann.lecun.com/exdb/lenet.

[19]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[J].Advances in Neural Information Processing Systems,2012,25:1097-1105.

[20]Szegedy C,Liu Wei,Jia Yangqing,et al.Going deeper with convolutions[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:1-9.

[21]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:770-778.

[22]Sabour S,Frosst N,Ninton G E.Dynamic routing between capsules[J].Advances in Neural Information Processing Systems,2017,30:3856-3866.

[23]Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2014:580-587.

[24]Girshick R.Fast R-CNN[C]//Proc of IEEE International Conference on Computer Vision.2015:1440-1448.

[25]Ren Shaoqing,He Kaiming,Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2016,39(6):1137-1149.

[26]Howard A G,Zhu Menglong,Chen Bo,et al.MobileNets:efficient convolutional neural networks for mobile vision applications[EB/OL].(2017-04-17).https://arxiv.org/abs/1704.04861.

[27]盧超.基于多模態知識圖譜的圖像描述[D].石家莊:河北科技大學,2020. (Lu Chao.Image caption based on multimodal knowledge graph[D].Shijiazhuang:Hebei University of Science and Technology,2020.)

[28]Wei Yunchao,Zhao Yao,Lu Canyi,et al.Cross-modal retrieval with CNN visual features:a new baseline[J].IEEE Trans on Cyberne-tics,2017,47(2):449-460.

主站蜘蛛池模板: 久久黄色影院| 日韩专区欧美| 中文字幕人成人乱码亚洲电影| 国产精品久久久久鬼色| 欧美色综合网站| 五月婷婷伊人网| 国产精品美女在线| 精品久久高清| 欧美在线一级片| jizz国产在线| 久久久久无码精品国产免费| 强乱中文字幕在线播放不卡| 中国一级特黄视频| 国产激爽大片在线播放| 精品人妻AV区| 国产白丝av| 亚洲国产精品日韩av专区| 亚洲 欧美 偷自乱 图片| 无码中文AⅤ在线观看| 美女无遮挡免费视频网站| 东京热一区二区三区无码视频| 粗大猛烈进出高潮视频无码| 亚洲欧美精品日韩欧美| 日本精品中文字幕在线不卡 | 国产精品手机视频| 国产精品尤物铁牛tv| 欧美日韩激情在线| 国产91视频免费| 人妻无码AⅤ中文字| 国产精品美女自慰喷水| 毛片视频网址| 欧美a在线视频| 欧美一级高清片久久99| 无码一区二区波多野结衣播放搜索| 欧美中文字幕无线码视频| 在线观看国产网址你懂的| 日韩AV手机在线观看蜜芽| 五月天综合网亚洲综合天堂网| 亚洲精品大秀视频| 国产麻豆永久视频| 免费在线不卡视频| 不卡网亚洲无码| 国产在线拍偷自揄观看视频网站| 久操线在视频在线观看| 99在线视频免费| 三上悠亚一区二区| 波多野结衣无码AV在线| 久久精品国产精品一区二区| 中国黄色一级视频| 国产探花在线视频| 亚洲无码日韩一区| 久久亚洲欧美综合| 国产专区综合另类日韩一区| 国产乱码精品一区二区三区中文| 男人的天堂久久精品激情| 中文字幕在线视频免费| av手机版在线播放| 日韩不卡免费视频| 日本午夜影院| 国产va在线观看免费| 美女潮喷出白浆在线观看视频| 精品人妻一区二区三区蜜桃AⅤ| 丁香婷婷久久| 亚洲欧州色色免费AV| 亚洲成A人V欧美综合| 波多野结衣AV无码久久一区| 久久婷婷人人澡人人爱91| 69免费在线视频| 国产成人1024精品| 亚洲日本中文字幕乱码中文| 免费无码在线观看| 国产成人1024精品| 网友自拍视频精品区| 日本不卡在线播放| 亚洲乱伦视频| 久热这里只有精品6| 国产成人精品2021欧美日韩| 国产又爽又黄无遮挡免费观看 | 九九九精品视频| yy6080理论大片一级久久| 日本精品视频| 国产一区二区福利|