曹建軍,常 宸,2,翁年鳳,陶嘉慶,3,江 春
(1.國防科技大學第六十三研究所,江蘇 南京 210007;2.陸軍工程大學指揮控制工程學院,江蘇 南京 210007; 3.南京工業大學工業工程系,江蘇 南京 210009)
如今,數據在各行各業中發揮著越來越重要的作用,但數據中存在的各種問題也日益凸顯。由于缺乏有效的控制手段,不同互聯網平臺提供的數據質量存在差異,錯誤、過時、不完整數據的存在導致多個網站針對同一實體的描述存在沖突[1]。這里的沖突是指不同數據集對同一實體具有不一致的描述[2]。例如,不同網站對同一地點同一天的天氣情況提供不同的信息,各圖書網站為同一書籍提供不同的作者信息等。這些不一致信息可能來源于信息錄入錯誤、語義理解偏差和數據抽取錯誤等。低質量的沖突數據可能會導致錯誤的分析決策和預測,對效益產生巨大的影響[3]。因此,解決數據沖突問題格外關鍵且迫在眉睫。真值發現研究如何從多個數據源提供的多個對象的沖突描述中為每一個對象找出最準確的描述[4]。
傳統真值發現方法分為基于迭代的方法、基于優化的方法和基于概率圖模型的方法。這幾類方法假設數據源可靠度與觀測值可信度之間的關系可用簡單函數表示,通過人工定義迭代規則或假設數據分布進行真值發現。而實際上,數據源可靠度和觀測值可信度之間的關系通常是未知的,簡單函數不足以表達這種復雜的關系,同時人工定義的條件難以反映數據的真實底層分布,導致真值發現的結果準確性不高。近年來,神經網絡被應用到與真值發現類似的場景中,有學者利用神經網絡學習數據源可靠度與觀測值可信度之間的關系,提高了真值發現的效率和穩定性,但僅適用于二值屬性的真值發現,不適用于沖突消解的一般場景。
與傳統真值發現方法不同,本文首先基于經常提供相同觀測值的數據源應具備相似可靠度的假設,提出 “數據源-數據源”損失;基于可靠數據源更可能提供可信觀測值的假設,提出“數據源-觀測值”損失。之后,設計雙損失深度網絡模型,對數據源可靠度與觀測值可信度進行編碼。網絡優化過程一方面使可靠的數據源與可信的觀測值在嵌入空間接近,另一方面使可靠的數據源在嵌入空間也彼此接近,并與不可靠的數據源遠離。最后,利用數據源與觀測值的高維嵌入空間進行真值發現。
與傳統方法相比,本文利用神經網絡表達數據源可靠度與觀測值可信度間復雜的關系,避免了人工定義和假設數據分布對真值發現結果的影響,更準確地捕捉數據源與觀測值間的依賴關系。同時,利用向量表達數據源可靠度與觀測值可信度較實數更準確。與近期提出的基于神經網絡的方法相比,所提方法TDNNE(Truth Discovery based on Neural Network Encoding)適用于真值發現的一般場景。實驗結果也表明該方法優于已知真值發現方法。
針對結構化數據的真值發現,一種簡單直接的方法是進行投票或取平均,這種方法假設所有數據源同樣可靠。然而在大多數情況下這種假設可能不成立,不同來源的信息質量可能差異很大。真值發現方法通過估計數據源可靠度來提高沖突消解的準確性。由于實際中往往缺乏數據源質量的先驗知識,數據源信息需要從已知數據中挖掘[5,6]。現階段,已有真值發現方法將數據源可靠度估計與真值發現過程緊密結合,設計不同的真值發現模型以適應不同的沖突消解場景,從不同數據源提供的沖突信息中找到正確信息。
Yin等人[4]首先提出了真值發現的概念,并給出了TruthFinder算法。該算法基于2個假設:(1)越可靠的數據源提供的事實越可信;(2)提供越多可信事實的數據源越可靠。該假設綜合考慮了數據源的真實性與其所提供的所有觀測值的準確性。眾多學者基于此假設提出了不同的真值發現方法,可概括為基于迭代的方法、基于優化的方法、基于概率圖模型的方法和基于神經網絡的方法4類。
基于迭代的方法[7,8]將真值發現過程設計為迭代過程,利用簡單函數假設數據源與觀測值間的關系,迭代進行真值計算步驟和數據源可靠度估計,直至收斂。以文獻[8]為例,真值計算過程中,固定數據源可靠度,以加權投票的方式計算真值,同時數據源可靠度則由本次迭代真值計算得到。
基于優化的方法[9 - 11]假設對象的真值情況應該盡可能與各數據源提供的觀測值接近,數據源質量越高,則其提供的對象屬性集合與真值集合越相似。該方法通過設置目標函數來進行真值發現,將真值發現問題轉化為優化問題求解。通常,基于優化的方法使用坐標下降法[12]來計算目標函數中數據源可靠度與觀測值可信度2個參數。通過固定一個參數的值,尋找另一個參數的最優值,迭代地執行真值計算步驟和數據源可靠度估計步驟,直到收斂,這與基于迭代的方法類似。
基于概率圖模型的方法[13 - 16]假設觀測值服從概率分布,通過采樣和參數估計的方法估計真值,若假設的概率分布不能反映數據的真實分布,將導致真值發現結果不理想。
傳統的真值發現方法假設數據源可靠度和觀測值可信度之間的關系可以通過函數(如線性函數和二次函數等)來表示。而實際上,數據源可靠度和觀測值可信度之間的關系通常是先驗未知的,簡單假設將會導致真值發現的結果并不理想。Marshall等人[17]首次將神經網絡應用到真值發現問題中,利用前饋神經網絡解決社會感知問題,但這種方法需要人工標記部分對象,無法進行無監督的學習,且僅適用于網絡觀測值是否為真的判斷,不適用于真值發現的一般場景。文獻[18-19]利用受限玻爾茲曼機隱含層學習數據源可靠度分布,采用對比散度算法(Contrastive Divergence)訓練模型參數[20],通過吉布斯采樣,達到了較好的擬合效果。但是,由于受限玻爾茲曼機本身的局限性,也僅適用于屬性為二值的真值發現場景。之后,Li等人[21]利用長短時記憶神經網絡進行真值發現,以不同數據源提供的“對象-屬性-值”矩陣與數據源可靠度矩陣的乘積作為輸入,以各個觀測值作為真值的概率作為輸出,通過最小化真值與各數據源觀測值之間的距離來優化網絡參數。該模型首次利用比實數具有更好的表示能力的向量來表示數據源可靠度,將數據源的可靠度視為潛在的背景知識,并存儲在可靠度矩陣中用來計算觀測值的可信度。
總結以上幾類真值發現方法,首先,基于迭代的方法由于人工設置迭代規則,具備較好的可解釋性,以方法Investment[8]為例,數據源將其可靠度“投資”在其提供的觀測值上,同時從識別真值中收獲可靠度,而其余3種方法則通過梯度下降或參數估計的方法獲得真值,可解釋性相對較差[22]。另一方面,有關數據源的先驗知識對于真值發現結果的提升至關重要,在基于優化的方法中,先驗知識可以被定義為額外的等式或不等式約束,而在基于概率圖模型的方法中,先驗知識可幫助模型中的超參數獲得更多的額外信息。基于迭代、優化和概率圖模型的真值發現方法由于簡單假設數據分布或數據源觀測值間依賴關系,常常不能準確地描述數據的底層分布,導致真值發現結果不理想。
針對真值發現問題,學者們通過考慮影響真值發現的各種因素及不同的應用場景進行了一系列相關研究。表1所示為不同真值發現場景的特點及其所需解決的問題的對比分析。

Table 1 Comparative analysis of the features and problems in different truth discovery scenarios表1 不同真值發現場景的特點及其問題對比分析
2.2.1 數據流
在數據流應用方面,Li等人[23]研究了數據流上的真值發現,將真值發現問題中最常見的最優化模型近似轉化為概率模型,提出能隨著新數據的加入而動態更新實體真實性和數據源權重的增量真值發現框架。李天義等人[24]等人針對感知數據流上的連續真值發現問題進行了研究,通過結合感知數據本身及其應用特點,定義并研究了當感知數據流真值發現的相對誤差和累積誤差較小時,相鄰時刻數據源的可信度變化需要滿足的條件,進而給出了一種概率模型,以預測數據源的可信度滿足該條件的概率,在保證真值發現結果達到用戶給定精度的同時提高了效率。Ouyang等人[25]針對大規模流數據,利用MapReduce框架設計了一種并行可增量的真值發現算法,并行算法能有效地在大型數據集中發現真值,流算法能處理增量的數據。
2.2.2 群智感知
在群智感知中,真值發現是指通過聚合有用的感知數據來推斷真實信息,同時從收集到的感知數據中估計用戶可靠性的過程。Yang等人[26]針對群智感知數據流,將質量評估與貨幣激勵相結合,設計了一種無監督的學習方法來量化用戶的數據質量和長期的聲譽,并利用一個離群的檢測技術來過濾異常的數據項。此外,還將盈余分享的過程建模為一種合作博弈,并提出了一種基于Shapley值的方法來確定每個用戶的支付。通過這個質量相關的支付方案,可以防止“搭便車”的問題,也可以激勵用戶提供高質量的數據。Zheng等人[27]考慮了群智感知的隱私方面,提供了自定義和低開銷的協議,通過估算用戶的可靠性和隱私保護來推斷真實信息。此外,還提出了一種基于同態加密的替代設計,它利用雙服務器模型來保持用戶端的效率,以進一步提高協議在大規模人群感知應用中的可用性。Huang等人[28]引入時間敏感性,并用最大期望估計來確定描述準確性和數據源可信度。Miao等人[29]則通過設計一個輕量型的真值發現架構,建立新的真值發現方案,解決最大似然估計問題,同時確定聲明的正確性和數據源可靠性,不僅保護了感知數據和用戶可靠的信息,還減少了開支。
2.2.3 文本數據
針對文本數據真值發現,目前大部分學者對問題進行了簡化,對文本數據進行粗粒度的分析,只能對社交媒體或其他網絡資源中文本數據進行是否為真的判斷,將問題簡化為二值屬性的真值發現問題。Popat等人[30]構建“數據源-語言風格”輸入向量作為輸入,通過Logistic回歸,將真值發現問題轉化為二分類問題;Broelemann等人[18,19]利用受限玻爾茲曼機隱含層學習真值概率分布,由于受限玻爾茲曼機本身特性,也只能用于二值屬性的真值發現;Marshall等人[17]利用全連接神經網絡學習數據源可靠度與觀測值可信度間的關聯關系,同樣將用戶答案抽象為0/1這2類,并輸入網絡進行真值發現。對于一般意義下的真值發現,文獻[31]首先將文本信息引入到真值發現過程中,并提出了細粒度的非結構化數據真值模型。Ma等人[32]提出了一個概率圖模型,以無監督發現藥物的真正副作用。 對于一般意義的文本數據真值發現,Zhang等人[33]將文本的語義信息完全融合到真值發現的過程中,并提出了一種從眾包用戶中發現可信賴答案的方法。然而,該方法只能處理答案較短的情況,不能應用于大多數文本數據真值發現場景。在此基礎上,Li等人[34]將從特定問題的答案中提取的關鍵詞組合成多個可解釋的因子,并使用基于概率圖模型的方法進行真值發現,以找到值得信賴的答案。
本文主要研究結構化數據真值發現問題,設計雙損失網絡對數據源及觀測值進行編碼,利用神經網絡自動挖掘數據源與觀測值之間的關聯度。下面介紹結構化數據真值發現問題及相關定義。
如表2所示為8個網站關于同一航班AA-1223-DFW-DEN提供的不一致的相關信息。首先每個網站提供的航班信息均有所缺失,同時多個數據源提供的航班信息之間存在沖突。

Table 2 Information of flight AA-1223-DFW-DEN表2 航班AA-1223-DFW-DEN的相關信息
本文研究的問題描述如下:給定對象集合E={ei|i=1,2,…,Q},其中Q是對象數量,ei表示第i個對象;數據源集合S={sj|j=1,2,…,M},數據源提供對象的描述信息,sj表示第j個數據源,M表示數據源數量;對象ei的觀測值集合Ci={cik|k=1,2,…,N},其中cik表示對象ei第k個觀測值,N表示該對象觀測值數量;ci*表示對象ei的真值。
本文解決在不進行人工標注的情況下,從多個數據源提供的多源沖突觀測值中找到對象信息的真值,即給定對象集合E及提供其描述的數據源集合S,評估數據源質量,找出各個對象對應的真值。
本節介紹數據源觀測值編碼過程,根據所提編碼假設,目標嵌入空間如圖1所示。圖1中不同填充內容的點分別表示不同數據源可靠度編碼與觀測值可信度編碼在嵌入空間中的位置。首先,對于不同數據源,設計“數據源-數據源”損失,使得可靠度相似的數據源在嵌入空間也彼此接近;對于觀測值,設計“數據源-觀測值”損失,使得觀測值可信度向量在嵌入空間與其數據源接近。通過將數據源與觀測值間的關系嵌入到高維空間,充分挖掘數據源觀測值間的信息,基于此空間完成真值發現。

Figure 1 Illustration of objective embedding space圖1 目標嵌入空間示意圖
4.1.1 “數據源-數據源”損失
基于經常提供相同觀測值的數據源應具備相似可靠度的假設,設計“數據源-數據源”損失,對數據源進行編碼。設數據源si和sj的嵌入向量分別為ui∈Rd和uj∈Rd,其中d表示數據源嵌入向量的維度,ui和uj分別表示數據源si和sj的可靠度。
首先,定義數據源的聯合概率qij如式(1)所示:
(1)
其中,dis(ui,uj) 表示嵌入向量ui與uj規范化后的余弦距離,用式(2)計算:
(2)
聯合概率qij越大,則數據源si和sj的可靠度越相似,qij服從伯努利分布,數據源si和sj提供相同觀測值的概率為qij,提供不同觀測值的概率為1-qij。然后,定義nij為數據源si和sj提供相同觀測值的個數,在給定聯合概率qij條件下,產生nij的條件概率如式(3)所示:

(3)
通過最大化條件概率,可靠度相似的數據源將在嵌入空間接近,最終定義“數據源-數據源”損失函數LSS如式(4)所示:
(4)
LSS損失函數衡量數據源的實際可靠度與其所在嵌入空間中的位置是否一致,LSS越小,則數據源可靠度編碼越準確。
4.1.2 “數據源-觀測值”損失
基于可靠數據源更可能提供可信觀測值,不可靠數據源更可能提供錯誤觀測值的假設,設計“數據源-觀測值”損失,對觀測值進行編碼。設觀測值cik的嵌入向量為vik∈Rd,表示對象ei的觀測值cik的可信度,d表示觀測值向量的維度,與數據源向量維度相同。
首先,對于對象ei,定義觀測值cik由數據源sj提供的條件概率如式(5)所示:
(5)
其中,dis(vik,uj)表示嵌入向量vik與uj規范化后的余弦距離,嵌入向量vik與uj越相似,則其值越小,用式(6)計算:
(6)
p(cik|sj)服從多項式分布,其分母包含對象ei的全部觀測值,能夠模擬從數據源集合S中產生對象觀測值的過程,符合真值發現觀測值間可能存在沖突的特性。另一方面,p(cik|sj)越大,觀測值cik和數據源sj的嵌入向量越相似,與假設可靠數據源通常提供可信觀測值,不可靠數據源經常提供低可信度觀測值的假設一致。
通過最大化條件概率,使可靠的數據源與可信觀測值在嵌入空間接近(反之,不可靠的數據源與不可信的觀測值在嵌入空間遠離),最終定義“數據源-觀測值”損失函數LSC如式(7)所示:
(7)


(8)
LSC損失函數衡量觀測值可信度與其數據源可靠度是否一致,LSC越小,觀測值可信度編碼越準確。
4.1.3 雙損失編碼網絡
結合“數據源-數據源”損失和“數據源-觀測值”損失雙損失,網絡模型最終損失函數如式(9)所示:
L=LSS+LSC
(9)
基于式(9),設計如圖2所示的雙路雙損失神經網絡分別對數據源與觀測值進行編碼。整個編碼網絡由3部分構成:第1層為輸入層,對數據源與觀測值編碼進行初始化輸入;第2層為編碼層,利用前饋神經網絡對數據源可靠度與觀測值可信度進行編碼;第3層為輸出層,輸出嵌入空間編碼和相似度矩陣。

Figure 2 Illustration of proposed model圖2 模型框架示意圖
(1)第1層。該層為輸入層,數據源編碼網絡輸入樣本為M×d的輸入矩陣,其中M表示數據源數量,d表示數據源可靠度向量的維度;觀測值編碼網絡輸入樣本為(Q×M)×d的輸入矩陣,其中Q表示樣本數量,d表示觀測值可信度向量的維度。
(2)第2層。該層為編碼層,主要是對數據源可靠度向量與觀測值可信度向量進行編碼,構造用于真值發現的數據源觀測值嵌入空間。該層與輸入層進行連接,并且前后都是全連接。編碼層第1個隱含層的節點個數為d。
(3)第3層。該層為輸出層,節點個數為d。數據源編碼網絡輸出樣本為M×d的輸出矩陣,得到“數據源-數據源”相似度矩陣。對于觀測值編碼,將其輸出與數據源編碼網絡的輸出矩陣計算得到“數據源-觀測值”相似度矩陣。
最后綜合數據源編碼網絡與觀測值編碼網絡的輸出,利用式(9)計算編碼損失,對雙路前饋神經網絡的參數進行優化,得到最終的數據源觀測值嵌入空間。
4.1.4 雙損失編碼網絡的學習過程
神經網絡編碼層的訓練過程采用的是反向傳播算法。輸入原始數據即數據源可靠度與觀測值可信度初始化向量,通過雙路神經網絡先各自前向計算各神經元的激活值,得到數據源可靠度編碼與觀測值可信度編碼,然后綜合2路編碼信息,反向計算雙損失;同時對誤差求各個權值和偏置的梯度,并據此調整前饋神經網絡中各個權值和偏差,得到最終的數據源可靠度與觀測值可信度嵌入空間。

(10)
其中,ReLU(Rectified Linear Unit)是修正線性單元激活函數,能夠將非線性特性引入到編碼網絡中,同時有效防止梯度彌散,提升收斂速度。
在網絡的訓練過程中,使用全部的觀測值作為訓練數據,無監督訓練網絡參數,得到最終的嵌入空間。
通過雙損失神經網絡編碼,將數據源與觀測值嵌入到高維空間,嵌入向量分別代表數據源可靠度與觀測值可信度,同時可靠度相似的數據源與可信度相似的觀測值在嵌入空間接近。通過投票機制,選擇得票數最高的觀測值對應的多個嵌入向量的均值作為“參考真值”向量,如對于對象ei,其參考真值v′i*由式(11)計算得到:
(11)
其中,vir(i=1,2,…,L)表示通過投票機制產生的最高票數觀測值對應的多個嵌入向量,L表示提供該值的數據源的個數。本文定義該對象真值為距離“參考真值”最近的觀測值,如式(12)所示:
vi*=arg mink(dis(vik,v′i*))
(12)
與簡單投票不同,TDNNE將數據源可靠度估計與真值發現過程相結合,以嵌入空間為基礎,將數據源間的相似度編碼為數據源相對可靠度,提高真值發現過程的準確性。
本節通過在真實數據集上進行實驗,驗證TDNNE方法的有效性與準確性。首先,將本文所提方法TDNNE與傳統真值發現方法及基于神經網絡的真值發現方法進行對比,驗證該方法的有效性和優越性。然后,研究學習率對所提方法的影響。最后對嵌入空間進行可視化,直觀展示編碼產生的數據源可靠度與觀測值可信度。
本文使用TensorFlow框架實現網絡并進行訓練,CPU為Intel Xeon E5-2630,內存為192 GB,GPU為NVIDIA Tesla P40×2,采用CentOS 7 64位操作系統。
本文在真實數據集Weather和Flight(http://da.qcri.org/dafna/#/dafna/exp_sections/realworldDS/book.html)上進行對比實驗,數據集來源于DAFNA(Data Forensics with Analytics),該網站為真值發現研究提供相關經典數據集,數據集的統計信息如表3所示。

Table 3 Statistical information of datasets表3 數據集的統計信息
Weather數據集:包含了16個網站關于不同地點不同時間的天氣信息,包括溫度(Temperature)、體感溫度(Real Feel)、濕度(Humidity)、氣壓(Pressure)和能見度(Visibility)5個屬性,該數據集提供了各個對象的真值。利用本文方法從多個網站提供的沖突信息中找到各個地區每天天氣的真值。對于數據集中的空值,采用投票的方法進行填充。
Flight數據集:包含了38個不同網站提供的不同航班信息,包括實際出發時間(Actual Departure Time)、實際到達時間(Actual Arrival Time)、登機口(Departure Gate)、預計出發時間(Expected Departure Time)和預計到達時間(Expected Arrival Time)5個屬性,該數據集提供了2011年12月~2012年1月的航班信息真值。利用本文方法從多個網站提供的沖突航班信息中找到各個航班的真實信息。對于數據集中的空值,同樣采用投票的方法進行填充。
本文采用自定義指標準確率(Pre)評價最終結果,其計算方式如式(13)所示:
(13)
其中,P為觀測值真值總數量,TP為方法得到的正確觀測值真值數量。準確率越高,真值發現方法效果越好。
本文將所提方法與多個真值發現方法進行對比,分別是基于迭代的真值發現方法Depen[7]、Accu[7]和AccuSim[7];基于概率圖模型的真值發現方法Cosine[16]和3-Estimates[16];基于優化的真值發現方法CRH(Conflict Resolution on Heterogeneous data)[9];基于神經網絡的真值發現方法FFMN(Feed Forward Memory Network)[21]。各個對比方法介紹如下:
(1)Depen:該方法考慮真值發現中數據源之間的復制情況,若2個數據源提供大量公共值,并且大部分的公共值很少由其他數據源提供,則很可能該數據源間存在復制行為。該方法使用貝葉斯分析來確定數據源之間的依賴關系,并設計一種迭代方法檢測數據源之間的依賴,同時從沖突信息中發現真值,是一種可拓展的真值發現方法。Depen是Accu和AccuSim的核心方法。
(2)Accu:該方法優化了數據源間復制情況的準確度判定條件,計算特定對象的底層數據中觀測值的概率分布,選擇具有最高概率的值作為真值,是Depen方法的拓展。
(3)AccuSim:該方法針對枚舉型數據進行真值發現。考慮觀測值間的相似性,采用文獻[4]提出的相似度度量模型,該方法是Accu方法的拓展。
(4)Cosine:該方法基于概率圖模型,綜合考慮Web數據中真值與觀測值間的相關性估計數據源可靠度與觀測值的可信度。使用余弦函數[35]對觀測值相似度進行度量,并通過迭代的方法使其收斂。
(5)3-Estimates:該方法針對單真值發現問題,假設同一對象有且僅有一個真值。基于投票的方法,綜合考慮每個對象的真值的可信度進行真值發現,是Cosine方法的拓展。
(6)CRH:該方法利用各種損失函數和正則化函數來描述不同的數據類型和權重分布,基于真值發現的假設設計目標函數,具有較高的收斂率和準確率,相較于其他真值發現方法準確率更高,是目前較優的非神經網絡真值發現方法。
(7)FFMN:該方法基于對象的真值情況應該盡可能與各數據源提供的觀測值接近,同時根據數據源的質量越高則其提供的對象屬性集合與真值集合越相似的假設設計損失函數,將數據源與觀測值之間的關系依賴利用前饋神經網絡進行學習,將真值發現任務抽象為分類任務進行求解。
TDNNE使用Weather數據集全部數據源及其觀測值進行編碼,不進行訓練集與測試集的劃分,當模型連續500次迭代損失函數不發生變化時,停止迭代,得到數據源觀測值嵌入空間,并進行真值發現。
5.5.1 實驗結果對比
表4和表5分別列出了TDNNE以及不同真值發現方法在數據集Weather和Flight上的對比實驗結果。
由表4和表5可以看出,TDNNE真值發現方法優于基于迭代、優化及概率圖模型的真值發現方法以及最新提出的基于神經網絡的真值發現方法FFMN。CRH和FFMN的性能相對穩定,而Accu和AccuSim在處理Flight數據集時的準確率較處理Weather數據集有明顯的提升。
基于迭代、優化及概率圖模型的真值發現方法

Table 4 Comparison of test results on Weather dataset表4 Weather數據集上的實驗結果對比

Table 5 Comparison of test results on Flight dataset表5 Flight數據集上的實驗結果對比
由于人工假設數據源觀測值間的依賴關系,難以真實反映數據的底層分布,導致真值發現結果不理想。而FFMN真值發現方法假設真值與大多數觀測值相似,在特殊情況下其實并不適用,導致真值發現結果準確率不高。本文利用神經網絡編碼的思想來表示數據源可靠度與觀測值可信度,一方面,高維空間表達能力更強,能更準確地描述數據源觀測值間的關系依賴。另一方面,利用前饋神經網絡將數據源與觀測值嵌入到高維空間,不需要假設數據的分布,結果更準確。
5.5.2 學習率對實驗結果的影響
在神經網絡的優化過程中,學習率控制參數的更新速度,學習率過小,會極大降低收斂速度,可能陷入局部最優;而學習率過大,則可能導致參數在最優解兩側來回震蕩,本節使用0.1,0.01,0.001,0.000 1,0.000 01進行實驗,以驗證學習率對實驗結果的影響,結果如圖3所示。

Figure 3 Influence of learning rate on experimental results圖3 學習率對實驗結果的影響

Figure 4 Encoding space of data sources圖4 數據源編碼空間
由圖3可知,實驗結果受學習率的影響較小,學習率為0.1和0.01時,實驗結果相對較好。
5.5.3 編碼空間可視化
5.5.3.1 數據源編碼
為直觀展示數據源編碼操作的有效性,以Weather數據集的屬性Temperature為例,對所有數據源以“數據源-數據源”損失進行編碼,構造真實的數據源相似度矩陣,并對真實的數據源相似度矩陣與編碼產生的數據源相似度矩陣進行可視化。
首先根據數據集標注等信息,計算出各數據源之間相同觀測值的數量,以構造真實的數據源相似度矩陣。真實的數據源相似度矩陣構造方式如下所示:構造一個16×16的矩陣,1~16為數據源編號,矩陣的副對角線上的元素表示同一個數據源的相同觀測值個數,所以副對角線的元素都為各數據源總觀測值個數。除副對角線之外的其他元素值,表示對應2個坐標編號數據源之間的相同觀測值個數,并以副對角線為對稱軸對稱。
圖4a所示為16個數據源觀測值相似度矩陣的真實分布,橫縱坐標分別為數據源編號,圖4a中給出了數據源之間相同觀測值個數的情況。圖4b~圖4e所示為編碼維度d分別為2,5,10,20時得到的數據源嵌入向量間的相似度矩陣,圖4b~圖4e中給出了最終數據源可靠度編碼向量間的相似度。
首先,對比圖4a與圖4b~圖4e可以看出,本文設計的網絡及損失函數能夠有效編碼數據源,還原數據源間的相似度關系。將數據源嵌入到高維度空間后,嵌入空間的數據源相似度矩陣與數據源真實分布矩陣是一致的,即數據源的相似度關系與數據源間相同觀測值比例關系保持一致。其次,對比圖4b和圖4c可以看出,數據源編碼維度會影響實驗結果,隨著數據源維度增加,嵌入空間與真實分布逐漸相似,當維度d為20時,圖4a與圖4e幾乎一致,此時數據源嵌入有效還原了數據源間的相似度關系。由此可見,相比實數,高維向量能夠更好地表征數據源的可靠度。
最后,為驗證該嵌入方法是否能真正反映數據源的可靠度,根據數據集提供的標準真值,對不同的數據源的真實準確率進行了計算。以準確率最高的數據源s14(Pre= 0.77)為例,由圖4e可知,在嵌入空間,與其可靠度相似度高的數據源為s8(Pre= 0.63)和s10(Pre= 0.57);相似度相對較高的數據源為s3(Pre= 0.37)、s7(Pre= 0.43)、s11(Pre= 0.42)和s15(Pre= 0.47)等;相似度極低的數據源為s1(Pre= 0.34)、s5(Pre= 0.19)和s12(Pre= 0.23)。可見,數據源間的相似度與其實際真實準確率的相似度是基本一致的。同時,數據源s5與所有數據源在編碼空間的相似度均較低,所以在嵌入空間,數據源s5的可靠度明顯區別于其他數據源(表現為與其他所有數據源相似度均較低)。所以,通過數據源編碼,準確率相似的數據源在編碼空間距離上也逐漸接近,本文提出的數據源嵌入方法能夠使可靠的數據源在嵌入空間彼此接近,并與不可靠的數據源遠離。
5.5.3.2 觀測值編碼
為直觀展示觀測值編碼的有效性,以Weather數據集的Temperature屬性為例,對所有觀測值以“數據源-觀測值”損失進行編碼,從準確率排名前3及后3的數據源中隨機抽取200個觀測值,使用T-分布領域嵌入T-SNE(T-distributed Stochastic Neighbor Embedding)[36]方法由20維降維至2維,并對其嵌入空間進行可視化。T-SNE方法將嵌入向量間的相似度轉化為概率,將數據映射至高維空間后,嵌入向量間的相似性同時在高維空間表現出來,是目前較好的非線性數據降維與可視化方法。結果如圖5所示。

Figure 5 Encoding space of claims圖5 觀測值編碼空間
圖5中,各點分別代表觀測值經T-SNE方法降維后在二維空間中的位置,圖中聚攏的不同簇表示不同數據源產生的觀測值。由圖5可知,通過觀測值編碼網絡,各數據源提供的觀測值向各數據源中心聚攏,在嵌入空間分成不同的簇。同時,觀測值嵌入空間被大致分為3個部分,準確率相似的數據源在嵌入空間也相對接近。同時數據源相似度越高,則其距離也越近。經過編碼得到的嵌入空間符合可靠數據源更可能提供可信觀測值,經常提供相同觀測值的數據源具備相似可靠度的假設。
針對傳統真值發現方法簡單假設數據分布與數據源觀測值關系依賴,導致真值發現結果不理想的問題,提出了基于深度神經網絡編碼的真值發現方法。首先,考慮數據源與觀測值間的關系,設計“數據源-數據源”“數據源-觀測值”雙損失;然后,利用雙路前饋神經網絡將數據源可靠度與觀測值可信度嵌入到高維向量空間,相比實數,更準確地表達了數據源可靠度與觀測值可信度;最后,基于投票機制設計基于嵌入空間的真值發現方法。真值發現過程不需要人工定義迭代規則,前饋神經網絡自動學習其復雜的關系。在真實數據集上的實驗結果表明,較傳統真值發現方法,本文所提方法準確率更高,同時可視化分析也直觀展示了數據源觀測值的編碼結果。
在下一步研究工作中,將會考慮更復雜的情況,提出更健全的損失函數,以提高真值發現的準確性,包括數據源之間的復制、數據的長尾效應等。