999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多源文本數(shù)據(jù)真值發(fā)現(xiàn)方法

2022-08-06 05:26:28曹建軍陶嘉慶翁年鳳蔣國權
國防科技大學學報 2022年4期
關鍵詞:語義文本方法

曹建軍,常 宸,陶嘉慶,3,翁年鳳,蔣國權

(1. 國防科技大學 第六十三研究所, 江蘇 南京 210007; 2. 陸軍工程大學 指揮控制工程學院, 江蘇 南京 210007;3. 南京工業(yè)大學 工業(yè)工程系, 江蘇 南京 211800)

大數(shù)據(jù)時代,隨著信息技術的發(fā)展,互聯(lián)網信息量呈爆炸式增長,但開放多源的互聯(lián)網使得不同數(shù)據(jù)源所提供的信息有所差別,不僅存在大量虛假和錯誤的信息,而且還存在許多惡意的數(shù)據(jù)源。謠言和低質量信息通過這些惡意數(shù)據(jù)源向外界傳播,嚴重影響對正確信息的判斷[1]。如今,數(shù)據(jù)質量問題日益嚴重,如何將正確信息從這些低質量數(shù)據(jù)中篩選出來是一個意義重大且具有挑戰(zhàn)性的研究。

真值發(fā)現(xiàn)是解決數(shù)據(jù)質量問題的重要方法,研究從不同數(shù)據(jù)源提供的關于多個真實對象的大量沖突描述信息中,為每一個真實對象找出最準確的描述。傳統(tǒng)的真值發(fā)現(xiàn)算法主要基于兩個假設:若數(shù)據(jù)源提供越多的可信事實,則該數(shù)據(jù)源越可靠;若數(shù)據(jù)源的可靠性越高,則該數(shù)據(jù)源提供的事實越可信。根據(jù)這兩個基本假設,傳統(tǒng)真值發(fā)現(xiàn)算法可分為三類。一是基于迭代的方法:基于迭代的方法用簡單函數(shù)來表達數(shù)據(jù)源可靠度與觀測值可信度之間的關系,迭代計算真值和數(shù)據(jù)源可靠度直至損失收斂[2]。二是基于優(yōu)化的方法:基于優(yōu)化的方法與基于迭代的方法類似,首先來通過假設條件設置目標函數(shù),再優(yōu)化目標函數(shù)來求解真值[3-4]。三是基于概率圖模型的方法:該方法假設觀測值的實際分布情況服從概率分布,通過參數(shù)估計和數(shù)據(jù)采樣對真值進行估算[5]。

隨著信息時代的推進,數(shù)據(jù)的形式在不斷豐富,多樣化的數(shù)據(jù)也給真值發(fā)現(xiàn)帶來新的挑戰(zhàn)。如今,用戶可以通過訪問互聯(lián)網平臺的公開信息尋找某個特定問題的答案,但這些答案大部分由互聯(lián)網用戶所提供而并非由專家提供,因此存在錯誤和沖突的答案。這些答案大多以文本的形式發(fā)布在互聯(lián)網平臺,如何克服文本數(shù)據(jù)所特有的自然語言特性對真值發(fā)現(xiàn)的影響,使得真值發(fā)現(xiàn)在文本數(shù)據(jù)領域有了新的挑戰(zhàn)。

首先,文本數(shù)據(jù)具有詞語使用多樣性的特性,用戶提供的答案可能會表達與正確答案關鍵詞非常相似的語義,例如exhausted和fatigue都可表達疲憊的含義,但由于傳統(tǒng)真值發(fā)現(xiàn)算法缺少對文本語義信息的充分挖掘,會將它們視為兩個完全不同的答案。其次,傳統(tǒng)真值發(fā)現(xiàn)算法在對結構化數(shù)據(jù)進行真值發(fā)現(xiàn)時,根據(jù)數(shù)據(jù)源的眾多觀測值對數(shù)據(jù)源可靠度進行評估,而在文本數(shù)據(jù)真值發(fā)現(xiàn)場景中,大量網絡用戶可以對同一問題進行回答,但是同一用戶回答的問題卻很少,數(shù)據(jù)稀疏性增大了對用戶可靠度進行評估的難度,所以傳統(tǒng)真值發(fā)現(xiàn)算法并不適用于文本數(shù)據(jù)真值發(fā)現(xiàn)場景。

對于文本數(shù)據(jù)真值發(fā)現(xiàn),現(xiàn)有方法都是通過簡化問題,從粗粒度角度對文本數(shù)據(jù)進行分析,判斷互聯(lián)網上的文本數(shù)據(jù)是否為真,也就是將問題轉化為二分類的問題進行求解。Broelemann等將受限玻爾茲曼機隱含層應用在真值發(fā)現(xiàn)場景之中,通過學習真值概率分布判斷真值,但是受限玻爾茲曼機本身特性的限制,也只能將問題轉換為二值屬性的問題[6]。Sun等提出了一種基于合同的個性化隱私保護激勵機制,用于眾包問答系統(tǒng)中的真理發(fā)現(xiàn),該機制為具有不同隱私需求的工人提供個性化付款,以補償隱私成本,同時確保準確的真值發(fā)現(xiàn)[7]。Li等提出一種適用于少量觀測值的移動眾包真值發(fā)現(xiàn)算法,通過重復使用各數(shù)據(jù)源的觀測值,挖掘數(shù)據(jù)源間的相關性[8]。Marshall等首次運用神經網絡解決真值發(fā)現(xiàn)問題,利用全連接神經網絡學習數(shù)據(jù)源可靠度與觀測值可信度間的關系,并將數(shù)據(jù)源和觀測值信息輸入網絡進行真值發(fā)現(xiàn)[9]。Li等將長短時記憶網絡用于真值發(fā)現(xiàn),將數(shù)據(jù)源可靠度矩陣和對象屬性值作為輸入,輸出觀測值為真的概率,最小化真值與觀測值間的距離加權,使得網絡參數(shù)達到最優(yōu)[10]。

與傳統(tǒng)真值發(fā)現(xiàn)算法不同,本文提出基于深度神經網絡面向多源文本數(shù)據(jù)的真值發(fā)現(xiàn)算法,將“數(shù)據(jù)源-答案”向量輸入神經網絡,通過訓練神經網絡自主學習答案語義關系,輸出答案的可信度矩陣。所提算法降低了數(shù)據(jù)稀疏性對評估數(shù)據(jù)源可靠度的影響,并且解決了傳統(tǒng)真值發(fā)現(xiàn)算法強假設數(shù)據(jù)分布而導致真值發(fā)現(xiàn)效果不佳的問題。

1 問題定義

表1 不同用戶的回答實例Tab.1 Example of answers from different users

由表1可知,對于同一問題,3名用戶分別給出了不同的答案。首先從文本數(shù)據(jù)細粒度的角度分析,每名用戶所提供的答案包含了正確答案的不同關鍵因素,具有部分正確率。然后通過神經網絡對答案語義進行提取,更準確地對答案間的關系進行度量。本文旨在通過充分運用神經網絡的強表達能力來挖掘文本自然語言特性,學習用戶答案間的關系,為問題尋求最優(yōu)答案。

2 算法模型與分析

NN_Truth文本數(shù)據(jù)真值發(fā)現(xiàn)算法共分為3個步驟:第一步對文本進行語義表征,挖掘文本的自然語言特性,將文本表征為多維向量;第二步利用神經網絡進行文本向量的真值發(fā)現(xiàn),通過網絡優(yōu)化,最終依據(jù)眾多答案向量計算識別真值向量;第三步根據(jù)各答案向量與識別真值向量的相似度計算各個答案的分數(shù)并排序。

2.1 文本的語義表征

圖1給出了對各用戶提供的文本答案進行語義表征的示意圖。

圖1 文本答案的語義表征Fig.1 Semantic representation for text answers

詞袋(bag-of-word,BoW)模型:以詞為最小單元,將用戶答案看作是詞的集合,忽略詞序及句法信息。將答案表示為一個多維向量(維度為答案中的詞表大小)。向量中某個維度的值為1代表當前詞存在于詞表中,不存在則為0。

詞頻-逆文檔頻次(term frequency-inverse document frequency,TF-IDF)算法:基于分布假說“上下文相似的詞,其語義也相似”,能夠反映一個詞的重要程度,模型假設詞與詞之間相互獨立。

全局向量的詞嵌入(global vectors for word representation,GloVe):將答案所包含的關鍵詞使用GloVe工具進行向量化,之后使用答案內關鍵詞向量的平均值作為答案向量。此方法獲得的句向量與單詞的順序無關,且所有單詞具備相同的權重。

平滑逆頻率[11](smooth inverse frequency,SIF):對答案中的每個詞向量,乘以一個權重,出現(xiàn)頻率越高的詞,其權重越小,計算句向量矩陣的第一個主成分,并讓每個句向量減去它在第一主成分上的投影,對句向量進行修正。

在以上4種語義表征方法中,BoW與TF-IDF方法不對答案中關鍵詞的語義相似性進行細粒度度量,對答案的準確性要求較高,要求用戶提供準確一致的答案關鍵因素。GloVe與SIF向量由于包含了答案中關鍵詞的語義信息,能夠對答案進行更加細粒度的度量,有效克服了詞語使用多樣性帶來的影響,適用于比較開放和主觀的問題。

2.2 真值發(fā)現(xiàn)

圖2為利用答案向量通過神經網絡進行真值發(fā)現(xiàn)的示意圖。

圖2 真值發(fā)現(xiàn)過程Fig.2 Process of truth discovery

文本數(shù)據(jù)真值發(fā)現(xiàn)基于兩個假設:①數(shù)據(jù)源的可靠度越高,則其提供的答案相似度越高[12];②問題答案的真值情況應該與各數(shù)據(jù)源提供的觀測值盡可能地接近。根據(jù)這兩個假設,定義模型損失函數(shù)如式(1)所示。

(1)

(2)

(3)

(4)

式(3)中,P表示文本答案向量的維度,交叉熵損失越小,該用戶提供的答案與識別真值越接近。 化簡式(3),得到式(5)。

(5)

式中,當Oqi<0,則e-Oqi→∞。 為避免溢出并確保計算穩(wěn)定,對式(5)進行修正,使用max{Oqi,0}代替Oqi,則最終交叉熵損失用式(6)計算。

(6)

在網絡優(yōu)化過程中使用隨機梯度下降方法優(yōu)化網絡模型參數(shù),并使用ReLU作為激活函數(shù),將非線性特性引入網絡中。

2.3 用戶答案評分

通過深度神經網絡多次訓練優(yōu)化迭代,直至網絡參數(shù)收斂,網絡輸出最終的識別真值向量記為Oq*,依據(jù)識別真值向量與各數(shù)據(jù)源提供的答案向量的相似度定義各個答案的分數(shù),對于GloVe、SIF向量,用式(7)計算。

(7)

對于BoW、TF-IDF向量,用式(8)計算。

(8)

分數(shù)越高,則答案越可靠,根據(jù)分數(shù)對問題提供的答案進行排名,找到眾多回答中的可靠回答。

3 實驗與分析

3.1 實驗環(huán)境與數(shù)據(jù)集

在真實數(shù)據(jù)集上進行對比實驗驗證基于深度神經網絡的多源文本數(shù)據(jù)真值發(fā)現(xiàn)算法的實驗效果。實驗框架為tensorflow,CPU為Inter Xeon E5-2630,內存為192 GB,GPU為Nvidia Tesla P40×2,操作系統(tǒng)為CentOS 7 64位。

采用源自Kaggle競賽的Short Answer Scoring(https://www.kaggle.com/datasets/harshdevgoyal/ short-answer-scoring)數(shù)據(jù)集,該數(shù)據(jù)集包含英語與藝術、生物、科學、英語4個學科數(shù)據(jù)集,每個學科數(shù)據(jù)集由問題和答案組成,所有答案經由競賽學生撰寫,答案長度為40~60個單詞,并經過相關人員對答案進行手動打分(0~3分)。

3.2 評價指標及實驗超參數(shù)

實驗使用Topk值作為評價指標,即取答案分數(shù)從高到低排名的前k個分數(shù)求平均分。表2為實驗超參數(shù)設置。

表2 實驗超參數(shù)設置Tab.2 Experimental super parameters setting

3.3 語義表征方法對比

為驗證不同語義表征方法對真值發(fā)現(xiàn)結果的影響,分別使用BoW,TF-IDF,GloVe,SIF進行文本的語義表征,數(shù)據(jù)集1~3為學科科學,4~5為英語與藝術,6~7為生物,8~10為英語,對比結果如圖3所示。

(a) 前10名平均分(a) Average scores of Top 10

(b) 前30名平均分(b) Average scores of Top 30圖3 不同文本表征方法結果比較Fig.3 Comparison of different text representation methods

由圖3可知,針對不同的數(shù)據(jù)集,不同的語義表征方法結果有微小差別,BoW與TF-IDF表示方法粒度較粗,不對答案中關鍵詞語義相似性進行度量,要求用戶必須給出準確的關鍵詞,適用于客觀嚴謹?shù)膯栴},在科學與生物兩門學科的答案評估中,結果較優(yōu)。而GloVe與SIF表示方法粒度較細,考慮文本的語義信息,答案中語義相近的詞被賦予相同的可信度,用戶給出類似或含義相近的詞,獲得近似的可靠度,適用于主觀開放性問題,在英語學科具備優(yōu)勢。TF-IDF方法在不同數(shù)據(jù)集中結果相對穩(wěn)定,在之后的對比實驗中,以TF-IDF方法作為答案語義表征方法,展示所提文本數(shù)據(jù)真值發(fā)現(xiàn)方法的優(yōu)越性與穩(wěn)定性。

3.4 對比算法

將所提方法分別與基于檢索的方法BoW Similarity,TF-IDF Similarity,GloVe Similarity,SIF Similarity及表現(xiàn)優(yōu)異的異質數(shù)據(jù)沖突消解(conflict resolution on heterogeneous data,CRH)算法[13]進行比較。由于傳統(tǒng)真值方法均不適用于文本數(shù)據(jù)的真值發(fā)現(xiàn),本文對CRH真值發(fā)現(xiàn)算法進行改進,同樣對文本數(shù)據(jù)進行了語義表征,并使用本文提出的距離函數(shù)度量文本答案間的相似性,當使用BoW與TF-IDF時,由于文本向量稀疏,真值發(fā)現(xiàn)的結果為全0向量,此時CRH方法失效,本文使用GloVe向量進行語義表征的真值發(fā)現(xiàn)結果作為CRH方法的結果,對比結果如圖4所示。

(a) 前10名平均分(a) Average scores of Top 10

(b) 前30名平均分(b) Average scores of Top 30圖4 不同方法結果對比Fig.4 Results comparison of different methods

由圖4可知,NN_Truth算法優(yōu)于對比算法。首先,基于檢索的方法對答案進行排序的依據(jù)是問題與答案的相似度,但答案所需的關鍵詞并不一定包含在實際問題中,所以基于檢索的方法所找到的答案,其關鍵詞與問題中的關鍵詞有很大的相似性,并不是真正意義上的真值。CRH算法對數(shù)據(jù)源與觀測值之間的關系做出假設,即可用簡單線性函數(shù)來表示它們之間的關系,但簡單函數(shù)難以對這種復雜關系進行準確描述,因此這種強假設使得CRH的實驗效果不佳。文本數(shù)據(jù)真值發(fā)現(xiàn)場景中用戶數(shù)量大,但每個用戶只提供的少量的答案,將會加快CRH迭代訓練時的收斂速度,進而對評估數(shù)據(jù)源產生影響。NN_Truth算法通過深度神經網絡尋找指定問題的真值,不需要強假設答案與各真值的關系,這種復雜關系將存儲在神經網絡的矩陣參數(shù)中,同時將“數(shù)據(jù)源-答案”向量輸入深度神經網絡,解決了傳統(tǒng)真值發(fā)現(xiàn)算法在文本數(shù)據(jù)真值發(fā)現(xiàn)場景中失效的問題,并且在面對稀疏數(shù)據(jù)時有很大的優(yōu)勢。

3.5 參數(shù)設置實驗

為驗證深度神經網絡應用于文本數(shù)據(jù)真值發(fā)現(xiàn)時的有效性及穩(wěn)定性,對NN_Truth算法進行參數(shù)設置實驗。通過設置5種不同的隱藏層層數(shù),驗證深度神經網絡層數(shù)對算法效果的影響,選取網絡最終輸出結果排名前10、30、50、80、100、200、300名學生分數(shù)計算平均分來評價實驗效果,實驗結果如表3所示。

表3 參數(shù)設置實驗Top k表Tab.3 Experimental Top k parameters setting

由表3可知,深度神經網絡隱藏層數(shù)量會影響實驗結果,當隱藏層層數(shù)為3時,實驗結果最好。

3.6 學習率對實驗結果的影響

學習率控制著神經網絡參數(shù)的更新速度,學習率過大或者過小,都會影響神經網絡收斂速度和最優(yōu)解的獲取。通過設置5種不同的學習率,驗證學習率對網絡訓練效果及收斂速度的影響,實驗結果如圖5所示。

由圖5可知,學習率對實驗結果的影響較小,部分數(shù)據(jù)集在學習率為1×10-2時,效果有所下降,對于大部分數(shù)據(jù)集,學習率為1×10-3時效果最好。

(a) 科學1(a) Science 1

(b) 英語與藝術1(b) English and art 1

(c) 生物1(c) Biology 1

(d) 英語1(d) English 1圖5 學習率對實驗結果的影響Fig.5 Effect of learning rate on experiment result

4 結論

本文提出基于深度神經網絡面向多源文本數(shù)據(jù)的真值發(fā)現(xiàn)算法NN_Truth,對文本答案進行向量化表示,并利用神經網絡尋找答案真值,區(qū)別于傳統(tǒng)真值發(fā)現(xiàn)算法對數(shù)據(jù)源可靠度的依賴,NN_Truth更加注重對答案本身語義信息的挖掘,使用深度神經網絡對答案間的復雜關系進行無監(jiān)督學習,為問題尋找正確可靠的答案。通過實驗驗證,本算法在數(shù)據(jù)源眾多而觀測值較少的場景中效果較好,優(yōu)于CRH等傳統(tǒng)真值發(fā)現(xiàn)算法。

猜你喜歡
語義文本方法
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語義的不對稱性及其認知闡釋
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 久久婷婷色综合老司机| 欧美日韩一区二区在线免费观看| 欧美a级在线| 午夜国产精品视频| 免费无码AV片在线观看国产| 中文字幕无码电影| 日韩精品成人网页视频在线| 亚洲成人动漫在线| 亚洲另类第一页| 欧美成人综合在线| 亚洲水蜜桃久久综合网站 | 2019国产在线| 在线观看免费AV网| 国产内射一区亚洲| 尤物午夜福利视频| 亚洲一区二区三区国产精华液| 欧美特黄一级大黄录像| 欧美在线视频不卡| 亚洲人成影视在线观看| 中文字幕不卡免费高清视频| 亚洲日本一本dvd高清| 一区二区三区四区在线| 久久国产精品电影| 色综合中文| 久久久噜噜噜| 亚洲精品麻豆| 亚洲福利视频一区二区| 91在线无码精品秘九色APP| 无码aⅴ精品一区二区三区| 日韩高清在线观看不卡一区二区| 日韩欧美综合在线制服| 宅男噜噜噜66国产在线观看| 蜜芽国产尤物av尤物在线看| 日韩无码白| 亚洲中文字幕无码mv| 99热这里只有精品国产99| 精品夜恋影院亚洲欧洲| 麻豆AV网站免费进入| 狠狠色丁香婷婷综合| 67194亚洲无码| 久久伊人操| 亚洲黄色网站视频| 国产第三区| 国产日韩欧美视频| 日本国产在线| 中国国语毛片免费观看视频| 欧美午夜视频在线| 制服丝袜亚洲| 精品丝袜美腿国产一区| 免费aa毛片| 国产自在线拍| 久久99热66这里只有精品一| 久久香蕉国产线看观看精品蕉| 婷婷综合色| 精品一区二区三区视频免费观看| 91精品国产91久无码网站| 秋霞午夜国产精品成人片| 91丝袜在线观看| 国产一区二区精品福利| 午夜毛片福利| 高清亚洲欧美在线看| 国产超碰一区二区三区| 久久99热这里只有精品免费看| 狠狠色综合久久狠狠色综合| AV不卡国产在线观看| 日韩人妻少妇一区二区| 国产aaaaa一级毛片| 国产精欧美一区二区三区| 色吊丝av中文字幕| 亚洲黄色视频在线观看一区| 成人在线观看一区| 亚洲水蜜桃久久综合网站| 蜜臀AVWWW国产天堂| 国产打屁股免费区网站| 国产亚洲成AⅤ人片在线观看| 久久精品免费看一| 最新国产网站| 国产一级在线观看www色| 国产精品亚洲а∨天堂免下载| 精品丝袜美腿国产一区| 国产一级毛片网站| 热久久综合这里只有精品电影|