基于多通道卷積神經(jīng)網(wǎng)絡(luò)的非結(jié)構(gòu)化數(shù)據(jù)標(biāo)注

2021-11-17 08:37:16米啟超趙紅梅林麗萍

計(jì)算機(jī)仿真 2021年6期

米啟超，趙紅梅，林麗萍

(1. 河南城建學(xué)院電氣與控制工程學(xué)院，河南平頂 467036；2. 西安交通大學(xué)化工學(xué)院，山西西安 710049)

1 引言

早期的數(shù)據(jù)標(biāo)注工作中，所標(biāo)注的數(shù)據(jù)通常由相關(guān)領(lǐng)域內(nèi)的專家，或使用計(jì)算機(jī)進(jìn)行標(biāo)注。雖然可以保證標(biāo)注質(zhì)量，但往往效率低下，延誤研究，同時(shí)成本較高[1-2]。眾包模式下，大任務(wù)較為復(fù)雜，通過(guò)拆分成小任務(wù)的方式降低復(fù)雜度，依據(jù)互聯(lián)網(wǎng)接口，網(wǎng)絡(luò)用戶得以使用，通過(guò)零散時(shí)間即可完成小任務(wù)，獲取報(bào)酬。眾包模式可以充分體現(xiàn)群眾智慧，潛能巨大，具有較為重要的商業(yè)價(jià)值，利用群體智慧，解決社會(huì)資源冗余問(wèn)題。

基于此原因，提出了眾包標(biāo)注方法，該方法通過(guò)較高的任務(wù)開(kāi)放性，提高了標(biāo)注速度，并降低了成本[3-5]。但該方法標(biāo)注質(zhì)量較低，需要依賴算法和函數(shù)來(lái)添加眾表標(biāo)注的標(biāo)簽，來(lái)改善標(biāo)注數(shù)據(jù)的質(zhì)量，需要確定標(biāo)注中的任務(wù)函數(shù)，并建立相關(guān)模型。早期研究者采用EM算法，對(duì)標(biāo)注者進(jìn)行混淆矩陣計(jì)算，后續(xù)又采取了RY真值推斷算法，并利用其中的敏感性參數(shù)來(lái)提高標(biāo)注任務(wù)函數(shù)的準(zhǔn)確度[6-8]。但該方法無(wú)法具體的體現(xiàn)出標(biāo)注者的差異性，獲取的標(biāo)注函數(shù)可靠性不高。而考慮到標(biāo)注者的特性和差異性問(wèn)題，運(yùn)用多通道卷積神經(jīng)網(wǎng)絡(luò)技術(shù)，可以對(duì)其進(jìn)行深入的運(yùn)算，具有較高的研究前景。

2 基于多通道卷積神經(jīng)網(wǎng)絡(luò)的非結(jié)構(gòu)化數(shù)據(jù)標(biāo)注方法設(shè)計(jì)

2.1 非結(jié)構(gòu)化數(shù)據(jù)查詢處理

在進(jìn)行標(biāo)注之前，需要對(duì)所需標(biāo)注的數(shù)據(jù)進(jìn)行確認(rèn)查詢處理，確定與被標(biāo)注數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)，避免出現(xiàn)漏標(biāo)或錯(cuò)標(biāo)[9-10]。在進(jìn)行非結(jié)構(gòu)化的數(shù)據(jù)查詢處理中，采用Hive分布式查詢框架進(jìn)行數(shù)據(jù)查詢處理。框架結(jié)構(gòu)如圖1所示。

圖1 Hive查詢框架結(jié)構(gòu)示意圖

如圖1所示，圖一中Driver模塊對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行編譯，并優(yōu)化其中的執(zhí)行語(yǔ)句。而Compiler模塊由Driver模塊進(jìn)行控制和調(diào)用，并將獲取到執(zhí)行語(yǔ)句轉(zhuǎn)為MapReduce執(zhí)行策略，轉(zhuǎn)換完成后傳輸回Driver模塊中。而Hadoop模塊作為策略的執(zhí)行引擎，通過(guò)Dricver將從MapReduce策略數(shù)據(jù)導(dǎo)入至Hadoop中，并進(jìn)行查詢。并設(shè)置Compiler將獲取到的數(shù)據(jù)轉(zhuǎn)換至一組一元操作符，并獲取到抽象語(yǔ)法樹(shù)，然后利用框架中的Semantic Analyzer對(duì)語(yǔ)法書(shū)中數(shù)據(jù)進(jìn)行語(yǔ)法分析。同時(shí)利用相似性檢索技術(shù)進(jìn)行查詢，通過(guò)給定的元素(在本文中，該元素為需要進(jìn)行標(biāo)注的數(shù)據(jù))，并尋找其中相似的元素，數(shù)據(jù)集設(shè)為A而查詢?cè)貏t設(shè)為s，相似性檢索即為

SS(A，s)={a|θs(a，b)，a∈A}

(1)

其中，不同集合下的相似度計(jì)算則如下所示

(2)

其中SimJaccard(S，T)的結(jié)果代表集合S以及集合T的相似度，|S∩T|代表集合S與集合T之間的交集，|S∩T|則代表集合S與集合T之間的并集。通過(guò)對(duì)其中標(biāo)注數(shù)據(jù)相似度的查詢，確定標(biāo)注數(shù)據(jù)有關(guān)信息，利于開(kāi)展進(jìn)一步的標(biāo)注。

2.2 眾包標(biāo)注集

(3)

(4)

通過(guò)式(4)可以將標(biāo)注任務(wù)形式化，但通過(guò)該方法后，標(biāo)注時(shí)對(duì)標(biāo)注者沒(méi)有體現(xiàn)出差異性，因此需要對(duì)其進(jìn)行進(jìn)一步的推算。

2.3 多通道卷積神經(jīng)網(wǎng)絡(luò)差異性識(shí)別

利用多通道卷積神經(jīng)網(wǎng)絡(luò)對(duì)其中的神經(jīng)元結(jié)構(gòu)帶入標(biāo)注任務(wù)和標(biāo)注者，并得出其中的最適應(yīng)標(biāo)注任務(wù)分配，同時(shí)給出不同標(biāo)注者的差異性[11-12]。根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)，得到網(wǎng)絡(luò)輸出公式h，公式為

(5)

在式(5)中，xi代表神經(jīng)元中的第i個(gè)輸入，wi代表在神經(jīng)元中的第i個(gè)輸入權(quán)重，b代表偏置值，f代表神經(jīng)元激活函數(shù)，h代表輸出公式。當(dāng)其中的WTx的結(jié)果作為線性結(jié)果，同時(shí)其中的激活函數(shù)引入了WTx的結(jié)果映射。而在多通道的卷積神經(jīng)元網(wǎng)絡(luò)中，假設(shè)其中網(wǎng)絡(luò)的輸入值為x，網(wǎng)絡(luò)中的權(quán)值矩陣為w以及偏置矩陣則為b，輸出為hw，b，在網(wǎng)絡(luò)進(jìn)行反向傳播中，將網(wǎng)絡(luò)中的期望輸出值設(shè)為y(x)。所訓(xùn)練的樣本個(gè)數(shù)為n，根據(jù)網(wǎng)絡(luò)反向傳播理論，在反向傳播中會(huì)出現(xiàn)損失函數(shù)，本文將損失函數(shù)設(shè)為E，則損失函數(shù)在神經(jīng)網(wǎng)絡(luò)中的平方誤差為

(6)

而在網(wǎng)絡(luò)的訓(xùn)練中，需要首先對(duì)其中的權(quán)重值w以及偏置值b進(jìn)行初始化。而在訓(xùn)練中，由于選取了反向傳播來(lái)帶入標(biāo)注指示函數(shù)，并對(duì)神經(jīng)網(wǎng)絡(luò)中的參數(shù)進(jìn)行更新，而在該過(guò)程中，網(wǎng)絡(luò)呈梯度下降的過(guò)程，如下圖所示：

圖2 神經(jīng)網(wǎng)絡(luò)中的梯度下降圖

根據(jù)在多通道卷積神經(jīng)網(wǎng)絡(luò)的梯度下降理論，可以根據(jù)梯度下降方向得出的神經(jīng)網(wǎng)絡(luò)的權(quán)重值w以及偏置值b，并更新得出的w以及b值。獲得的更新公式如下

(7)

(8)

2.4 任務(wù)標(biāo)注模型

(9)

在(9)中αk系數(shù)代表標(biāo)注值能力的系數(shù)，βi系數(shù)代表標(biāo)注任務(wù)的難度，而當(dāng)其中的βi參數(shù)為固定參數(shù)，而αk數(shù)值越大則反映標(biāo)注者的標(biāo)注能力越好。而當(dāng)αk數(shù)值為0時(shí)，說(shuō)明該任務(wù)里，標(biāo)注者的正確標(biāo)注概率僅為50%。而通過(guò)將雙標(biāo)簽任務(wù)擴(kuò)展到多標(biāo)簽任務(wù)標(biāo)注中時(shí)，首先假設(shè)一共存在J種標(biāo)注類型，并建立標(biāo)注集合C={cj|j=1，2，3，…，J}來(lái)表示，而當(dāng)標(biāo)注目標(biāo)i的標(biāo)注真值為m時(shí)，則該標(biāo)注者k的標(biāo)注正確率為

(10)

(11)

在式(11)中，存在的隱變量T的和對(duì)數(shù)，運(yùn)用Q函數(shù)，而在累加形式下，表示出期望狀態(tài)，代表了完全數(shù)據(jù)下的標(biāo)注似然函數(shù)InP(V，T|θ)，而其中的觀測(cè)數(shù)據(jù)V在對(duì)估計(jì)參數(shù)θn下的為觀測(cè)數(shù)據(jù)T的后驗(yàn)概率分布P(T|V，θn)的期望值

(12)

由此得出在(12)中，算法的迭代過(guò)程等價(jià)與Q(θ，θn)函數(shù)。借由此得出標(biāo)注函數(shù)的解值，根據(jù)解值，確定標(biāo)注模型參數(shù)，依據(jù)標(biāo)注模型完成數(shù)據(jù)標(biāo)注方法設(shè)計(jì)。

3 實(shí)驗(yàn)論證分析

為了測(cè)試本文設(shè)計(jì)的非結(jié)構(gòu)化數(shù)據(jù)標(biāo)注方法的有效性，本文選取了Airfares、Music、Hotel以及Books等4個(gè)領(lǐng)域中的非結(jié)構(gòu)化數(shù)據(jù)，共160個(gè)WDB數(shù)據(jù)集，進(jìn)行標(biāo)注統(tǒng)計(jì)分析。并與文獻(xiàn)[1]、文獻(xiàn)[2]中的標(biāo)注方法進(jìn)行對(duì)比實(shí)驗(yàn)。

表1 硬件配置表

3.1 實(shí)驗(yàn)標(biāo)注數(shù)據(jù)

由于目前對(duì)非結(jié)構(gòu)化數(shù)據(jù)標(biāo)注方法缺乏相關(guān)的測(cè)試標(biāo)注設(shè)計(jì)，因此本文數(shù)據(jù)資源通過(guò)搜索引擎下載獲得，實(shí)驗(yàn)中使用的數(shù)據(jù)集情況如下表2所示。

表2 實(shí)驗(yàn)測(cè)試數(shù)據(jù)集

為了減低實(shí)驗(yàn)困難程度，閾值標(biāo)注通過(guò)專家給定，黃金標(biāo)簽個(gè)數(shù)為1000個(gè)，經(jīng)過(guò)深度學(xué)習(xí)進(jìn)行標(biāo)簽預(yù)處理操作，標(biāo)注對(duì)象個(gè)數(shù)為11270個(gè)，實(shí)驗(yàn)共收集10名標(biāo)注者信息，判斷修改標(biāo)簽域與標(biāo)簽值。

3.2 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)

在進(jìn)行數(shù)據(jù)標(biāo)注中，標(biāo)注的基準(zhǔn)值是通過(guò)手工方式得出的數(shù)據(jù)標(biāo)注結(jié)果，并計(jì)算其中的標(biāo)注正確率、召回率以及F-measure數(shù)值來(lái)進(jìn)行評(píng)價(jià)。

而標(biāo)注正確率代表正確標(biāo)注的數(shù)據(jù)塊個(gè)數(shù)以及經(jīng)過(guò)查詢得出的數(shù)據(jù)個(gè)數(shù)比值召回率代表在標(biāo)注時(shí)得到的正確標(biāo)注數(shù)據(jù)個(gè)數(shù)和查詢得到數(shù)據(jù)塊個(gè)數(shù)比值。而F-measure則代表標(biāo)準(zhǔn)的數(shù)據(jù)標(biāo)注能力評(píng)判值，數(shù)值越接近100%，代表性能越優(yōu)秀。本文實(shí)驗(yàn)將運(yùn)用上述中的三種指標(biāo)進(jìn)行實(shí)驗(yàn)結(jié)果評(píng)價(jià)。

3.3 實(shí)驗(yàn)結(jié)果

在運(yùn)用數(shù)據(jù)標(biāo)注方法實(shí)驗(yàn)中使用的數(shù)據(jù)集分別進(jìn)行數(shù)據(jù)標(biāo)注后，對(duì)獲得的標(biāo)注結(jié)果進(jìn)行評(píng)價(jià)。獲得的標(biāo)注結(jié)果如表3所示。

表3 標(biāo)注方法間的性能比較表

依據(jù)表3中的數(shù)據(jù)中可以發(fā)現(xiàn)，本文設(shè)計(jì)的數(shù)據(jù)標(biāo)注方法在標(biāo)注的正確率、召回率以及F-measure上均高于其它標(biāo)注方法。證明本文設(shè)計(jì)的數(shù)據(jù)標(biāo)注方法存在較高的可行性。

為直觀判斷標(biāo)注效果，在對(duì)象標(biāo)注界面中，包括了標(biāo)注者當(dāng)前任務(wù)完成情況，當(dāng)前可選擇標(biāo)注的標(biāo)簽，以及待標(biāo)注的圖片，標(biāo)注者只需先選中標(biāo)簽，就可以在圖片中快速框選對(duì)象，并為對(duì)象打上此標(biāo)簽。對(duì)象判斷任務(wù)中，用戶可以判斷此標(biāo)簽是否包含有效的對(duì)象。

圖3 標(biāo)注對(duì)象圖

邊框調(diào)整模塊可以對(duì)標(biāo)簽范圍框進(jìn)行調(diào)整，將內(nèi)邊距較大的標(biāo)注范圍框調(diào)整為緊貼標(biāo)注對(duì)象，提高標(biāo)注質(zhì)量。

圖4展示了標(biāo)注者的標(biāo)注點(diǎn)分布，以及通過(guò) 原始聚類和本文卷積神經(jīng)網(wǎng)絡(luò)的聚類效果對(duì)比。

圖4 聚類算法效果圖

由上圖可以看出，本文方法聚類效果較好，標(biāo)注對(duì)象選中密度較大，傳統(tǒng)方法的標(biāo)簽域范圍較大。主要原因在于本文方法建立Hive分布式查詢框架，對(duì)其中與標(biāo)注目標(biāo)相關(guān)的數(shù)據(jù)進(jìn)行相似性查找，同時(shí)建立眾包標(biāo)注集，確定相關(guān)標(biāo)注概念。對(duì)標(biāo)注集中的標(biāo)注差異性，利用多通道卷積神經(jīng)網(wǎng)絡(luò)對(duì)其差異性進(jìn)行確認(rèn)，提高了標(biāo)注準(zhǔn)去率。

4 結(jié)束語(yǔ)

在本文中，利用多通道卷積神經(jīng)網(wǎng)絡(luò)技術(shù)，對(duì)標(biāo)注者的差異性進(jìn)行了深入挖掘，獲得了標(biāo)注任務(wù)函數(shù)，并根據(jù)函數(shù)建立了任務(wù)標(biāo)注模型，得出了非結(jié)構(gòu)化的數(shù)據(jù)標(biāo)注方法，該方法下標(biāo)注質(zhì)量較高性能較好。但本文研究中，只考慮了對(duì)標(biāo)注者給出的任務(wù)標(biāo)簽數(shù)據(jù)的情況，而在實(shí)際中，往往會(huì)提供額外的特征信息條件。因此后續(xù)的研究中，將會(huì)研究與額外的數(shù)據(jù)標(biāo)注信息進(jìn)行結(jié)合，進(jìn)一步改善數(shù)據(jù)標(biāo)注質(zhì)量。