999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多模態(tài)信息相關(guān)度計算的計算機教育領(lǐng)域?qū)嶓w鏈接

2024-01-02 08:35:22王會勇張曉明
軟件導(dǎo)刊 2023年12期
關(guān)鍵詞:模態(tài)學(xué)科文本

郭 沛,王會勇,張曉明

(河北科技大學(xué) 信息科學(xué)與工程學(xué)院,河北 石家莊 050018)

0 引言

人工智能為教育智能化創(chuàng)造了機遇,特別是以知識圖譜為核心的技術(shù),能將學(xué)科中的知識體系聯(lián)系起來構(gòu)建知識圖譜。但在學(xué)科教育中,其知識體系并不是一成不變的,因此學(xué)科知識圖譜[1]的更新已成為研究熱點和趨勢,而實體鏈接作為更新知識圖譜的關(guān)鍵技術(shù)顯得尤為重要。在計算機學(xué)科領(lǐng)域,將與概念有關(guān)的圖片關(guān)聯(lián)到知識圖譜對應(yīng)實體上,可增強知識圖譜的表達性,提高知識圖譜[2]可用性。

目前,實體鏈接方法主要是針對文本和視覺兩種模態(tài)。特定領(lǐng)域中,一些實體含義需要通過上下文語義確定,一詞多義或多詞一義等現(xiàn)象比較普遍[3],因而一些由單詞拼接的領(lǐng)域?qū)嶓w較難識別,故僅使用文本的實體鏈接有一定局限性。多模態(tài)實體鏈接則是結(jié)合多種模態(tài)信息完成鏈接,多模態(tài)知識表示學(xué)習(xí)[4]則將圖像特征和文本特征一起嵌入到統(tǒng)一低維空間[5-7],計算實體之間的相似性以尋找最佳鏈接點。但在多模態(tài)知識表示學(xué)習(xí)的訓(xùn)練過程中,能夠?qū)崿F(xiàn)對齊的多模態(tài)實體全部用人工標(biāo)注,會造成巨大的浪費[7]。Zhang 等[8]設(shè)計了一個兩階段機制,首先確定圖像和文本之間的關(guān)系,以消除噪聲圖像的負(fù)面影響,然后執(zhí)行消歧。Gan 等[9]分別消除了視覺提及和文本提及的歧義,然后使用圖形匹配探索模式、提及之間的可能關(guān)系。但這些模型泛化能力和其應(yīng)用數(shù)據(jù)集中的實體類型都比較受限。

本文面向計算機學(xué)科領(lǐng)域提出一種實體鏈接方法,將圖像及其文本描述分別轉(zhuǎn)化成圖像視覺實體和三元組以幫助圖像完成鏈接。圖像和文本屬于兩種不同的模態(tài),如何有效地將兩者結(jié)合以完成實體鏈接是一項關(guān)鍵挑戰(zhàn)。本文主要貢獻如下:①面向計算機學(xué)科領(lǐng)域提出一種從圖像的文本描述中提取并篩選三元組的策略,先抽取圖像文本描述中的三元組,過濾低置信度的三元組,再通過計算圖像視覺實體和三元組頭尾實體的相關(guān)度之和對集合中的三元組進行排序,最后得到與圖像相關(guān)度最強的三元組,用于圖像鏈接到多模態(tài)知識圖譜后的擴展任務(wù);②面向計算機學(xué)科領(lǐng)域提出一種實體鏈接規(guī)則(Visual Entity Linking Rules,VELR),該規(guī)則依次利用圖像視覺實體、與圖像視覺實體相關(guān)度最強三元組中的頭或尾實體以尋找最佳鏈接點;找到鏈接點之后,利用不同的鏈接策略,通過圖像視覺實體替換與圖像相關(guān)度最強的三元組中頭或尾實體形成的新三元組,對鏈接后的圖像或文本進行擴展。

1 相關(guān)工作

早在2013 年,Chen 等[10]手動框出圖像中的實體并打上標(biāo)簽,通過標(biāo)簽內(nèi)容完成鏈接。但是人工注釋成本不僅高,而且會造成巨大的人力物力浪費[11]。因此,Alberts等[12]直接計算輸入圖像和多模態(tài)知識圖譜中所有圖像的余弦相似性,將相似度最高節(jié)點作為其最佳鏈接點。但是單模態(tài)下,該方法有一定局限性,如信息量少、語義不夠豐富等,會影響最終鏈接效果。

多模態(tài)實體鏈接則聚合了多模態(tài)信息。Moon 等[13]首先解決多模態(tài)實體鏈接任務(wù),他們在社交媒體帖子中提取實體鏈接的文本、視覺和詞匯信息,并利用社交平臺上文字所附照片提供視覺背景輔助消歧。Wang 等[14]提出一個多模態(tài)實體鏈接數(shù)據(jù)集WIKIDiverse,并基于WIKIDiverse實現(xiàn)了一系列具有模態(tài)內(nèi)和模態(tài)間注意力的多模態(tài)實體鏈接模型。Gan 等[9]則重新定義了多模態(tài)實體鏈接,先分別做文本和視覺實體鏈接,之后將文本提及和視覺提及的對齊建模為二部圖匹配問題以完成多模態(tài)聯(lián)合消歧。但這些多模態(tài)實體鏈接方法是基于自己數(shù)據(jù)集而提出,應(yīng)用到特定領(lǐng)域的效果可能并不理想。還有在多模態(tài)實體鏈接中利用聯(lián)合知識表示學(xué)習(xí)[15-16],將其轉(zhuǎn)化為向量平移問題。由于圖像和文本是不同屬性的對象,需要通過矩陣乘法嵌入統(tǒng)一空間,因此計算量較大。Li等[17]先確定圖像中的實體,然后在Web 上檢索實體的鏈接,最后通過鏈接中的實體在知識圖譜中檢索圖像的鏈接點。檢測文本中的實體依賴于領(lǐng)域性詞典的完整性,因而這些方法很難應(yīng)用或遷移到計算機學(xué)科領(lǐng)域。

為了找到一種適用于計算機學(xué)科領(lǐng)域、計算量小且不需要大量標(biāo)注數(shù)據(jù)的多模態(tài)實體鏈接方法,本文基于Li等[17]的思想,將圖像和文本描述相結(jié)合,面向計算機學(xué)科領(lǐng)域提出一種簡單有效的實體鏈接方法。與上述所有方法不同的是,對圖像和其文本描述分別進行處理,首先識別出圖像中的視覺實體,并將其文本描述處理成實體和關(guān)系較為明確的結(jié)構(gòu)化三元組,最后按照提出的實體鏈接規(guī)則完成最后的鏈接和擴展。

2 問題描述與概念定義

圖1 為任務(wù)描述圖,將其分為3 個步驟:①輸入:圖像及其文本描述;②圖文處理:檢測圖像視覺實體,提取并篩選文本描述中的三元組;③完成鏈接:將圖像鏈接到知識圖譜中,并利用視覺實體和三元組對圖像進行擴展。

Fig.1 Task description圖1 任務(wù)描述

對本文需要用到的概念和符號進行定義如下:

定義1多模態(tài)知識圖譜。根據(jù)Zhu 等[18]思想將多模態(tài)知識圖譜定義為G,G={E,R,A,V,T},其中E、R、A、V是實體、關(guān)系、屬性和屬性的集合,T為三元組集合。

定義2待鏈接圖像、圖像的文本描述和待鏈接三元組。待鏈接圖像是要鏈接到G 中的圖像,用p表示。ep表示p的視覺實體。m表示圖像文本描述,ImgDesTriple表示從m中抽取的三元組集合。表示待鏈接三元組,是ImgDesTriple中與圖像視覺實體相關(guān)度最高的。

定義3最佳鏈接點。實體鏈接的目標(biāo)是將文本中的實體提及指向知識庫中的特定實體,定義這個特定實體是實體提及的最佳鏈接點。

根據(jù)所定義的概念和符號將問題的形式化表述為式(1),其中f函數(shù)表示根據(jù)p和m返回一個找到最佳鏈接點且包含圖像的三元組,整體含義為在多模態(tài)知識圖譜G的三元組集合T中增加了一條新三元組,T發(fā)生了變化。

3 視覺實體鏈接

3.1 系統(tǒng)總體架構(gòu)

圖2 為系統(tǒng)總體架構(gòu)圖,用戶輸入待鏈接圖像及其文本描述,首先通過檢測圖像中的視覺實體并從文本描述中提取并篩選出待鏈接三元組,然后根據(jù)領(lǐng)域特性設(shè)計實體鏈接規(guī)則,最后將圖像視覺實體和待鏈接三元組鏈接到知識庫中。

Fig.2 Overall system architecture圖2 系統(tǒng)總體架構(gòu)

3.2 總體方法描述

總體方法描述如圖3所示。

Fig.3 Overall approach description圖3 總體方法描述

Step1:p和m的信息抽取。利用YOLOV5 檢測p中的視覺實體ep,抽取并篩選m中的三元組,確定一個置信度高且與ep相關(guān)度最高的三元組

Step2:首先計算ep和頭尾實體相關(guān)度。當(dāng)ep和頭實體相關(guān)度最高,ep將其替換,形成;當(dāng)ep和尾實體相關(guān)度最高時,亦如此。

Step3:用ep在G 中尋找p的最佳鏈接點,如果找到,則將ep替換為p;如果沒有找到ep的最佳鏈接點,則用待鏈接三元組中hs或ts尋找最佳鏈接點,如果找到,p與待鏈接三元組一起鏈接,p作為ep的屬性值。

3.2.1 圖像及其文本處理

視覺實體識別是對用戶輸入圖像中的實體進行識別,利用YOLOV5 訓(xùn)練計算機學(xué)科領(lǐng)域的視覺實體識別模型,數(shù)據(jù)集使用CE-Detection。YOLOV5 對圖像的視覺實體識別結(jié)果如表1所示。

Table 1 Visual entity recognition results of images表1 圖像的視覺實體識別結(jié)果

為了獲得準(zhǔn)確且與圖像相關(guān)度較高的三元組,針對計算機學(xué)科領(lǐng)域設(shè)計了一種從圖像文本抽取并篩選三元組的規(guī)則。

(1)過濾低置信度的三元組。用OpenIE[19]、OLLIE[20]工具對圖像文本進行抽取,得到兩個三元組集合Open(h,r,t)和Oll(h,r,t)中。如式(2)所示,一個三元組同時存在于兩個集合中,則存放在ImgDesTriple,取兩個集合的平均置信度作為三元組新置信度。其余三元組合并到ImgDesTriple,選取一個置信度閾值對ImgDesTriple中的三元組進行篩選,過濾低于閾值的三元組。

(2)利用圖像視覺實體對過濾后ImgDesTriple中的三元組進行排序。在計算機學(xué)科領(lǐng)域中,許多術(shù)語實體是由詞綴拼接而成[21],但基于字符串相似性的特征有局限性,沒有考慮實體間結(jié)構(gòu)語義相似性,因此基于WML 模型[22]計算三元組中的實體和ep語義相關(guān)度r(ep,a),利用SMOA算法[23]的Comm方法計算三元組中的實體和ep字符串相似度Comm(ep,a),再采用張曉明等[21]實體過濾的思想將基于結(jié)構(gòu)的語義相關(guān)度r(ep,a)和基于字符串的相似度Comm(ep,a)相加作為ep和a的相關(guān)度Sim。最后由本文提出的式(6)計算ep和ImgDesTriple中三元組相關(guān)度。

式(3)中,I、J 分別是鏈接到候選實體ep和a的維基百科的超鏈接集合,W 是維基百科中實體的集合,r(ep,a)表示兩個實體間的相關(guān)度。式(4)中,分子為兩個字符串的最大公共子串的兩倍,分母為兩個字符串的長度之和。式(5)中,Sim(ep,a)表示ep與實體a之間相關(guān)度。式(6)中,h、t分別表示三元組中頭、尾實體,Reltation(ep,)表示ep和三元組的相關(guān)度。

將ImgDesTriple中三元組按此相關(guān)度為依據(jù)由大到小排序,與視覺實體相關(guān)度最高的三元組為。如式(7)所示,RelationFirst(x,)用式(6)計算得x與相關(guān)度最高,IsSpecific()表示這個特殊的

3.2.2 計算機學(xué)科領(lǐng)域?qū)嶓w鏈接規(guī)則

VELR 中將ep和作為輸入,利用TALN[24]方法在G 中尋找ep或hs,ts的最佳鏈接點。TALN 中基于Babel-Net 的SENSEMBED 模型[25]將其轉(zhuǎn)化為向量,尋找候選實體集C。本文選其RunHeads映射在C 中尋找最佳鏈接點。

Rule 1視覺實體鏈接規(guī)則。利用ep尋找最佳鏈接點,首先計算ep和中頭尾實體的相關(guān)度,替換相關(guān)度最高的實體。由于尾實體的鏈接方法相同,因而用ep替換hs的鏈接過程加以說明。如圖4 所示,在候選實體集C中找到ep的最佳鏈接點ei,ep替換成與其相關(guān)度最高的hs形成三元組,鏈接時將ep換成p。p作為ei的屬性值,關(guān)系為hasImage。公式表達如下:

Fig.4 Visual entity link extension rules圖4 視覺實體鏈接擴展規(guī)則

式(8)中,isVisualEntity(ep,p)表示ep是p的視覺實體,beLinkTriple()表示是待鏈接三元組,SimMax(x,y)表示式(5)計算的x和y相關(guān)度最高,Run-HeadsMapfromC(x,y)表示TALN 中RunHeads 映射在候選實體集C 中找到x的鏈接點y。

如圖5 所示,輸入圖像及其文本描述,首先通過領(lǐng)域?qū)嶓w識別得到圖像視覺實體‘AVL tree’,提取文本描述中的三元組,篩選排序得到與視覺實體相關(guān)度排名最高的三元組,然后利用視覺實體在知識庫中找到其最佳鏈接點‘AVL tree’,最后圖像替換三元組中與視覺實體相關(guān)度最高的頭實體bintree,形成新的三元組鏈接到知識庫中。

Fig.5 An example of rule 1圖5 Rule 1實例

Rule 2待鏈接三元組頭尾實體鏈接規(guī)則。是頭、尾實體與ep相關(guān)度之和篩選的,ep在G 中找不到最佳鏈接點,則與它相關(guān)度最高的頭或尾實體可能也找不到,故利用與ep相關(guān)度不高的另一個實體進行尋找。由于尾實體鏈接過程相同,因此用尾實體鏈接加以說明:

如圖6 所示,當(dāng)ep在G 中無法找到最佳鏈接點,并且中hs和ep相關(guān)度最高,因而用中的ts在G中尋找最佳鏈接點ei。ep替換hs形成三元組鏈接到ei上,p為ep的屬性值,關(guān)系為hasImage。公式表達如下:

Fig.6 Tail entity link圖6 尾實體鏈接

式(10)表示ep在G中沒有找到最佳鏈接點,且ep與三元組中的頭實體hs相似度最高,此時ep替換hs,用ts尋找最佳鏈接點鏈接。式(11)表示ep在G中沒有找到最佳鏈接點,且ep與三元組中的尾實體ts相似度最高,此時ep替換ts,用hs尋找最佳鏈接點鏈接。

4 實驗與結(jié)果分析

4.1 數(shù)據(jù)集構(gòu)建

實驗中構(gòu)建了一個包含圖像和圖像標(biāo)簽的數(shù)據(jù)集CE-Detection,用于計算機學(xué)科領(lǐng)域的圖像實體識別。CE-Detection 中12 個類別的圖像來自于CSDQA[26],由計算機相關(guān)專業(yè)的研究生手動繪制邊界框并打上標(biāo)簽,確保標(biāo)簽內(nèi)容的一致性,其中80%作為訓(xùn)練集,20%作為驗證集。同時,構(gòu)建了一個包含圖像和文本的多模態(tài)數(shù)據(jù)集CS-IMG,該數(shù)據(jù)集中的圖像來自于CSDQA[26]和Wikipedia,文本包括圖像的文本描述和圖像中實體對應(yīng)的文本。CSDQA 中圖像的文本由5 名計算機專業(yè)研究生根據(jù)CSDQA 中的圖像內(nèi)容和相應(yīng)的圖像問答對進行總結(jié)得到,從Wikipedia 上搜集的圖像的文本也是由5 名計算機專業(yè)研究生根據(jù)圖像所在網(wǎng)頁中的文字信息總結(jié)而來。表2 為使用數(shù)據(jù)集的信息,CMMKG 是課題組Zhang 等[21]利用領(lǐng)域?qū)嶓w抽取方法構(gòu)建的計算機學(xué)科領(lǐng)域多模態(tài)知識圖譜。本文的任務(wù)是在CMMKG 中完成實體鏈接。

Table 2 Data sets表2 數(shù)據(jù)集

4.2 計算機領(lǐng)域圖像實體識別

4.2.1 評價標(biāo)準(zhǔn)

驗證YOLOV5 在計算機學(xué)科領(lǐng)域中圖像視覺實體的識別效果,選擇COCO128 數(shù)據(jù)集作為對比。實驗的評測指標(biāo)為P、R、mAP@0.5 和mAP@0.5:.95。mAP@0.5 表示將IoU 設(shè)為0.5 時,每個類所有圖片AP 的平均值。mAP@0.5:.95 表示在不同IoU 閾值(從0.5 到0.95,步長為0.05)上的平均mAP。

4.2.2 實驗結(jié)果與分析

表3 中,本文隨機從CE-Detection 中選取了6 個類別進行實驗,Images 列代表每個類別圖像的總數(shù)。12 種圖像的P和R均在0.8 以上,且在每個值上的表現(xiàn)都與COCO128 相差不大,可以證明YOLOV5 在CE-Detection 上有良好表現(xiàn),可用于計算機學(xué)科領(lǐng)域中圖像視覺實體識別。

Table 3 Entity recognition results in images表3 圖像中實體識別結(jié)果

4.3 三元組置信度閾值選擇

4.3.1 評價依據(jù)

隨機選取500條圖像的文本描述,按照3.2節(jié)所述方法加以處理,得到3 000 條三元組存放在TotalTriple集合中。將TotalTriple中的三元組隨機平均分成3 組,設(shè)置不同的閾值并篩選,觀察剩余三元組數(shù)量平均占比和閾值之間的關(guān)系。

4.3.2 結(jié)果與分析

如圖7 所示,圖中實線表示隨著置信度閾值的增加剩余三元組的數(shù)量占比也在下降,虛線則為實線的趨勢線。從兩條線的趨勢看,當(dāng)閾值增加時,集合中剩余的三元組數(shù)量在減少,這是因為三元組的置信度反映的是三元組的準(zhǔn)確率,置信度越高,三元組的準(zhǔn)確率越高,但置信度越高,集合中剩余的三元組數(shù)量會越少。當(dāng)閾值大于0.79時,集合中三元組的數(shù)量減少迅速。但是當(dāng)閾值選擇0.95時,與0.79 相比相差10%左右。因此,可以選擇0.79 以上的置信度閾值對三元組進行篩選。

Fig.7 Threshold selection圖7 閾值選擇

應(yīng)確保每個圖像的ImgDesTriple中至少剩余兩個三元組。選0.79 以上的閾值對ImgDesTriple,觀察集合中剩余三元組,統(tǒng)計500 組圖像的ImgDesTriple中剩余三元組的數(shù)量。

如表4 所示,當(dāng)閾值選擇在0.85 及以下時,500 組圖像的ImgDesTriple中沒有出現(xiàn)少于兩個三元組的集合。當(dāng)閾值為0.87 時,有10%圖像的ImgDesTriple集合中會少于2個三元組,不符合設(shè)定的篩選規(guī)則,因此最終將閾值限定為0.85。

Table 4 The proportion of the set of different remaining triples to the total表4 剩余不同數(shù)量三元組的集合占總數(shù)的比例(%)

4.4 實體鏈接

4.4.1 評價標(biāo)準(zhǔn)

TALN[24]和VCU[27]是在小規(guī)模知識圖譜融合中表現(xiàn)很好的系統(tǒng),具有較高的召回率,選擇VCU 作為TALN 的對比實驗,測試兩個系統(tǒng)在計算機學(xué)科領(lǐng)域中尋找實體提及最佳鏈接點的性能。數(shù)據(jù)集選擇CMMKG 和CS-IMG 中除圖像外的全部數(shù)據(jù),隨機分成訓(xùn)練集和測試集。評價指標(biāo)為WuP、R、F1。WuP 為相似度度量,用來計算兩個詞的語義相似度。式(12)中,s1、s2表示兩個詞,lcs表示連接s1和s2的最短路徑。

4.4.2 結(jié)果與分析

由表5實驗結(jié)果可知,TALN 的R和F1值均比VCU 高,可能是因為VCU 在閾值的設(shè)定上有些不足,低于設(shè)定閾值即為下位詞,這就導(dǎo)致一些分?jǐn)?shù)極低的噪聲插入圖譜。雖然TALN 和VCU 中以實體、其詞性和文本描述作為輸入,但是TALN 將實體和其所有輸入轉(zhuǎn)化成向量之后,更多的考慮了句法、詞性和短語之間的聯(lián)系。而TALN-RunHeads的WuP 值更高,說明在計算機學(xué)科領(lǐng)域中TALN-Run-Heads映射方法相對表現(xiàn)更好。

Table 5 The results of two model test表5 兩個模型測試的結(jié)果

4.5 三元組分類任務(wù)評測實體鏈接規(guī)則

4.5.1 評價標(biāo)準(zhǔn)

為了驗證在鏈接過程中是否出現(xiàn)噪聲,使用三元組分類任務(wù)對結(jié)果進行評測。三元組分類任務(wù)目的是判定三元組(h,r,t)是否正確,其本質(zhì)是一個二分類的任務(wù)。實驗采用張曉明等[28]提出的可信度得分,通過其定義公式(13)和公式(14)計算能量函數(shù)后轉(zhuǎn)化為三元組的可信度得分,得到[0,1]區(qū)間的數(shù)值作為其可信度得分,0.5 以上的分?jǐn)?shù)被分為正確三元組。式(13)中,E(h,r,t)表示能量函數(shù);R(h,t)表示實體之間關(guān)聯(lián)強度;T(h,r,t)表示實體類型評估結(jié)果;RRP(h,r,t)表示基于多步路徑信息計算的結(jié)果;λ1、λ2為超參數(shù)。

向數(shù)據(jù)集CMMKG 中添加VELR 規(guī)則產(chǎn)生的0,100,300個三元組,分別表示為CMMKG、CMMKG-100、CMMKG-300。采用PTransE[29]、CKRL[30]、TransE[31]模型對進行三元組分類實驗。通過對比實驗結(jié)果,驗證添加的三元組中是否存在噪聲以及是否會對整體準(zhǔn)確率產(chǎn)生影響。

在此之前,需驗證在三元組中摻雜噪聲會對分類準(zhǔn)確率的影響有多大。在CMMKG-100 和CMMKG-300 的訓(xùn)練集中加入噪聲,其中噪聲比分別設(shè)置為新增數(shù)據(jù)的10%、30%、50%。

4.5.2 結(jié)果與分析

如表6 所示,當(dāng)在CMMKG-100 和CMMKG-300 加入10%噪聲時,分類準(zhǔn)確率沒有變化。說明3 個模型在分類任務(wù)上存在少量噪聲可能不會影響整體分類準(zhǔn)確率。但是,當(dāng)加入30%噪聲和50%噪聲時,準(zhǔn)確率都略有下降。這說明隨著噪聲的增加,3 個模型在分類的準(zhǔn)確率上會有所下降,同樣也證明了3 個模型在檢測噪聲方面有一定的能力和適用性。

Table 6 Classification results of adding noise to CMMGG-100 and CMMGG-300表6 在CMMKG-100和 CMMKG-300中加入噪聲的分類結(jié)果

如表7 所示,CKRL 在三元組分類任務(wù)上的表現(xiàn)最好,是因為CKRL 中路徑信息的使用方法優(yōu)于PTransE,而TransE 在學(xué)習(xí)過程中沒有用到路徑之間的關(guān)系。但是3個模型對加入100 三元組的數(shù)據(jù)集進行三元組分類實驗,準(zhǔn)確率沒有變化,可能是因為少量的數(shù)據(jù)變化不會影響3 個模型分類的準(zhǔn)確率,該結(jié)論在上述實驗中也被證明。而PTransE 和CKRL 在加入300 個后準(zhǔn)確率會提高0.1,是因為PTransE 和CKRL 在分類時采用了知識庫中豐富的內(nèi)部結(jié)構(gòu)信息,在加入較多三元組后路徑會更豐富,因此準(zhǔn)確率也相應(yīng)提高。由以上結(jié)論可以證明,使用提出的鏈接方法增加新三元組對整體三元組分類的準(zhǔn)確性沒有影響,從側(cè)面證明本文方法的有效性。

Table 7 Triplet classification results表7 三元組分類結(jié)果

選取由Sun 等[32]提出的視覺實體鏈接模型中的一個子任務(wù):視覺到視覺實體的鏈接(Visual to Visual Entity Linking,V2VEL)作為基線模型。在與上述實驗相同的數(shù)據(jù)集和相同實驗設(shè)置下,用V2VEL 完成圖像到CMMKG 的鏈接,之后用三元組分類任務(wù)對結(jié)果進行評測并與本文方法進行比較。

如表8 所示,本文所提方法在計算學(xué)科領(lǐng)域的實體鏈接表現(xiàn)結(jié)果比Baseline-V2VEL 好。可能是因為V2VEL 中僅用圖像視覺特征鏈接,此時會出現(xiàn)找不到最佳鏈接點或者最佳鏈接點與其相關(guān)性低的問題,進而影響鏈接準(zhǔn)確性。而本文方法考慮到該情況,為不同鏈接點設(shè)置了不同的鏈接規(guī)則,提高了鏈接準(zhǔn)確率。還可能是因為V2VEL更專注于視覺人物數(shù)據(jù)集,面對計算機學(xué)科領(lǐng)域中一些概念性的圖像時,視覺特征提取效果不好從而導(dǎo)致視覺實體鏈接效果表現(xiàn)不佳。由此結(jié)論表明,本文所提方法更適用于計算機學(xué)科領(lǐng)多模態(tài)實體鏈接。

Table 8 Method comparison表8 方法比較

4.6 結(jié)果展示

如圖8 所示,虛線框?qū)?yīng)VELR 規(guī)則中的Rule 1、Rule 2。Rule 1中,AVL tree 的圖像鏈接到對應(yīng)實體,擴展了balancing search tree 實體。在Rule 2 中,實體ordered sequence鏈接到知識圖譜中的實體Array,圖像作為ordered sequence的屬性值。

Fig.8 Results presentation圖8 結(jié)果展示

5 結(jié)語

面向計算機學(xué)科領(lǐng)域提出了一種視覺實體鏈接規(guī)則VELR。在理論價值方面,為特定領(lǐng)域的實體鏈接提供了一種新思路。首先識別出圖像中的實體,然后對其文本描述進行抽取篩選,最后利用提出的VELR 完成圖像鏈接和知識擴展。對鏈接后產(chǎn)生的新知識進行評測,實驗結(jié)果表明,通過對比有無噪音實驗結(jié)果,證明了VELR 的有效性。在應(yīng)用價值方面,VELR 對計算機學(xué)科領(lǐng)域知識圖譜的更新和演化提供了一種新的有效方法,提高了計算機學(xué)科領(lǐng)域知識圖譜的可用性,對其他學(xué)科領(lǐng)域也具有借鑒意義。

識別圖像視覺實體時,YOLOV5 雖是一個準(zhǔn)確的輕量模型,但模型對標(biāo)注數(shù)據(jù)有依賴性,使其可能不具有泛化能力。為了解決該問題,后續(xù)工作將從如下幾點入手:①嘗試融合多種目標(biāo)檢測模型,使其能識別多類別圖像,增加模型泛化能力;②研究更加高效的圖像視覺實體識別模型,嘗試結(jié)合圖像文本描述準(zhǔn)確定位圖像中的目標(biāo)實體,提高目標(biāo)檢測精度,降低目標(biāo)檢測任務(wù)復(fù)雜性;③考慮包含多實體圖像的鏈接規(guī)則,增加多模態(tài)實體鏈接系統(tǒng)的功能。

猜你喜歡
模態(tài)學(xué)科文本
【學(xué)科新書導(dǎo)覽】
土木工程學(xué)科簡介
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
“超學(xué)科”來啦
論新形勢下統(tǒng)一戰(zhàn)線學(xué)學(xué)科在統(tǒng)戰(zhàn)工作實踐中的創(chuàng)新
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
國內(nèi)多模態(tài)教學(xué)研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
主站蜘蛛池模板: 国产欧美日韩精品综合在线| 久久精品中文字幕少妇| 成人精品视频一区二区在线| 亚洲午夜福利精品无码不卡 | 精品国产三级在线观看| 白丝美女办公室高潮喷水视频| 色综合五月婷婷| 精品一区二区三区四区五区| 免费观看精品视频999| 日本成人精品视频| 88av在线看| 国产精品伦视频观看免费| 日韩久久精品无码aV| 制服丝袜无码每日更新| 自偷自拍三级全三级视频| 高清视频一区| 福利一区在线| aⅴ免费在线观看| 亚洲国产午夜精华无码福利| 亚洲男人的天堂在线观看| 日韩中文字幕亚洲无线码| 超碰精品无码一区二区| 国产美女无遮挡免费视频| 亚洲AV无码不卡无码 | 欧美高清三区| 国产激情在线视频| 在线无码九区| 国产日本欧美在线观看| 嫩草在线视频| 夜夜操天天摸| 国产成人亚洲无码淙合青草| 国产精品一区二区在线播放| 就去吻亚洲精品国产欧美| 91人人妻人人做人人爽男同| 国产午夜一级淫片| 一本大道无码高清| 欧美午夜小视频| 怡红院美国分院一区二区| 国产亚洲视频中文字幕视频| 天天综合色网| 免费A∨中文乱码专区| 成人亚洲天堂| 国产91蝌蚪窝| 欧美爱爱网| 91无码人妻精品一区二区蜜桃| 久久久精品久久久久三级| 精品无码国产自产野外拍在线| 自拍欧美亚洲| 国产亚洲精品资源在线26u| 91小视频在线观看免费版高清| 亚洲综合久久一本伊一区| 91精品国产自产在线老师啪l| 99精品影院| 丁香婷婷激情网| 又猛又黄又爽无遮挡的视频网站| 亚洲成人动漫在线观看| 国产精品第一区在线观看| 久久久久国产一级毛片高清板| 成人免费一区二区三区| 日本手机在线视频| 最新亚洲人成网站在线观看| 97超级碰碰碰碰精品| 三上悠亚一区二区| a级毛片免费网站| 中文字幕在线看| 日本高清视频在线www色| 天天色综合4| 中文成人无码国产亚洲| 老司国产精品视频91| 国产精品妖精视频| 国产一级无码不卡视频| 9丨情侣偷在线精品国产| 无码网站免费观看| 亚洲第一香蕉视频| 深爱婷婷激情网| 精品福利视频网| 国产成人精品高清在线| 国产v精品成人免费视频71pao| 美女扒开下面流白浆在线试听| 午夜小视频在线| 欧美激情第一欧美在线| 手机看片1024久久精品你懂的|