賀彥程,徐 冰,朱聰慧
(哈爾濱工業大學 計算機學院,黑龍江 哈爾濱 150001)
隨著社交網絡的發展,人們越來越喜歡在網絡平臺上瀏覽相關資訊并發表自己的觀點。但是社交網絡的隱匿性和雜亂性使大量的虛假信息得以迅速傳播。對于網絡上存在的大量文本信息,人工判定其虛假性耗時耗力,因此近幾年越來越多的研究者開始關注虛假信息的自動化檢測,該研究對網絡輿情的監控有重要意義。
自動化虛假信息檢測是指利用用戶行為、外部知識等特征信息對網絡上發布的文本進行虛假性檢測。其中根據分析對象和分析方法的不同可分為事實核查[1-2]、虛假新聞檢測[3-4]和謠言檢測[5]等。事實核查通常是先收集相應的證據文本,通過證據文本進行核查驗證[2],其需要先從大規模文本語料庫中抽取相關的證據,并通過推理對給定的聲明作出真假性判斷[3]。Thorne[6]首次提出事實核查領域的大型數據集FEVER和相應的評測任務,該任務旨在根據從維基百科檢索到的證據語句,將人工構建的聲明自動分類為“證實”“駁斥”或“證據不足”。
目前大多數研究都將該任務分為三個階段處理:證據檢索、證據篩選和虛假性判別。首先,根據相應的聲明在維基百科等知識庫里檢索與之相關的證據文檔;其次,對證據文檔進行語句級別的篩選;最后,結合篩選后的語句推理得到其虛假性判別結果。如圖1中的數據所示,下方是根據聲明中的關鍵信息檢索得到的相關證據,由第一條證據文本可知《隨愛沉淪》是一部浪漫喜劇電影,驗證了聲明中的“comedy film”,又由第三條或第四條證據文本可知,這部電影在2003年公映,從而可知該聲明的正確性。

圖1 事實核查數據樣例
虛假性判別通常被視為自然語言蘊含推理任務[2,7],其需要判斷提取到的證據句和聲明在語義上是否存在推理矛盾關系。該階段是目前事實核查任務的主要瓶頸所在[6], 也是本文研究的重點。目前該階段的研究主要存在以下兩個難點:一是需要捕捉證據文本與聲明之間的細粒度語義關聯;二是需要結合跨語句特征信息做綜合推理。目前有相關研究提出引入多頭注意力機制(Multi-head Attention)[8]來捕捉證據文本包含的細粒度語義信息[9-11],但這類方法都極易受文本中的噪聲信息影響。同如圖1中的示例,經驗證,此類模型會受第二條證據文本中的其他時間干擾。同時直接采用多頭注意力機制不易捕捉長距離的語義聯系。隨后圖神經網絡又受到很多研究者關注[12-16],因為其可以建模數據間復雜的語義關系,更有效地捕捉遠距離的語義關聯,但它們大多直接采用整句的語義表示作為圖節點[13-14,16],通過全連接的方式連接各個節點[14,16]。這類方法都未能在多個證據中捕獲豐富的語義關聯信息,也未能更深層次地挖掘多個證據句之間的關系。
針對當前事實核查任務依然存在的問題,本文從更深一步挖掘聲明和證據文本之間的關聯性的角度出發,提出了基于跨證據文本實體關系的圖卷積網絡模型,旨在提供對任務實際情境更有效的先驗信息,更大程度地發揮圖神經網絡的優勢。我們對數據的分析發現,各文本中的實體關系對虛假性判別結果有重要影響,大部分虛假性聲明是由于存在某個實體對象與證據文本不對應或是實體關系錯誤等問題,例如時間節點錯誤、人名錯誤等。因此我們認為虛假性判別任務的核心在于實體本身和實體之間的關系,同時其判別大多是圍繞具體的實體對象展開。這與普通的自然蘊含推理任務不同,虛假信息往往存在一個具體的載體,例如“你今天心情不錯”并不傳達客觀有效信息,不存在真假之分;而對于“劉翔是一名田徑運動員”之類的表述就存在對其中包含的客觀實體相關信息的真假性判別。同時,目前主流的證據檢索方式是依據聲明中的實體檢索相關文檔,因此證據句與聲明之間的關聯同樣建立在實體之上。研究發現,與推理過程契合的圖節點設立方式和連接方式才能更大程度地發揮圖神經網絡的有效性,使得圖模型性能有實質的提升。
所以針對該任務特性,本文提出了基于跨證據文本實體關系的圖卷積神經網絡模型(Cross-EvidenceEntityRelation ReasoningModel,CERM)。不同于以往大多數研究中圖節點只依賴于單一類型的語義單元(如語句、詞語),我們引入了實體和語句兩種不同粒度的語義單元作為圖節點,語句向量作為外層粗粒度語義信息表示,實體向量作為內層細粒度語義信息表示,模型在不同粒度語義單元的交互中產生不同含義的語義交互。在具體實現上,首先基于證據內的實體關系鏈接建模該條證據內部語義,基于不同證據文本的相同實體鏈接獲取同一實體對象的屬性信息。經驗證,這樣可以更準確地收集與該實體相關的信息,同時在一定程度上減少噪聲信息的干擾。模型再進一步通過多層圖卷積網絡計算學習細粒度的多維度語義向量,然后在此基礎上通過圖注意力機制提取與特定聲明相關的證據表征,最終結合聲明文本進行虛假性判別。在公開數據集FEVER上的實驗結果表明,本文提出的模型與基線模型相比性能提升明顯,證實本文所提方法的有效性。
綜上,本文在采用圖神經網絡的基礎上,在圖的節點、圖的連接方式和圖計算上均提出了更深層次的改進。本文的主要貢獻如下:
(1) 提出一種基于跨證據文本實體關系的圖卷積神經網絡模型,該模型利用跨證據句的實體關系來聚集同一對象的關鍵信息,同時過濾噪聲,提高虛假性判別的準確率。
(2) 在證據篩選階段,采用交互式相似度模型[35],同時在訓練階段構建難易負樣本,采用啟發式證據句檢索算法,提高證據句召回率,減少關鍵證據信息的遺漏。
事實核查是一項具有挑戰性的研究任務,需要根據多條證據文本中的信息推理出聲明的虛假性。Thorne等人[1]構建了目前最大的事實核查數據集FEVER并發起評測競賽引起大批學者關注。
現有的事實核查研究通常沿用FEVER的官方基線[1],分為三個階段處理:證據檢索、證據篩選和虛假性判別。對于前兩個階段,大多數研究沿用Hanselowski等人[17]提出的方法,用成分分析工具提取聲明中包含的實體,再利用實體鏈接檢索相關文檔,然后訓練增強的序列推斷模型(Enhanced Sequential Inference Model, ESIM)[18],計算語句間的語義相似度,從而篩選相關證據文本。考慮到實體的歧義性,Nie等人[19]引入知識圖譜檢索更多相關文檔。Bert[20]、Robert[21]等大規模預訓練模型的出現,使得文本理解能力大大提升,所以Liu等人[16]引入Bert預訓練模型計算語句間的相似度,提升證據篩選階段的準確率。另外,Wan等人[22]提出了一種基于強化學習的精確證據檢索方法,通過強化學習增強語義學習的泛化能力和魯棒性,但是這些方法都是計算語句級別的相似度,很容易引入大量噪聲或遺漏一些重要的隱式證據信息。
第三階段即虛假性判別,是本文研究的重點,也是該任務目前主要的瓶頸所在。其需要模型學習豐富的細粒度語義特征,同時能夠捕捉跨語句的深度語義關聯。為了達到這一目的,Nie等人[19]和Tymoshenko等人[11]采用多頭注意力機制來捕捉聲明與證據文本之間的關聯性。但是它們難以學習到不同粒度的語義結構信息,所以Kruengkrai等人[10]在此基礎上設計了不同層次的句間與句內注意力機制來解析聲明與證據文本之間的語義信息,Yi[23]和Dun[24]等人引入知識圖譜擴展模型的理解能力。另外也有引入輔助任務加強模型泛化性的相關研究,如包含立場判定或情感分類的多任務學習機制[25]。
此外,圖神經網絡在該任務上也有較好的性能表現[26-27],其可以建模數據間的復雜關系,且能更好地捕捉遠距離的語義關聯,通過對鄰居節點信息的聚集和傳播來學習語義特征,比序列模型有更強大的推理能力。事實核查任務往往需要結合多個證據文本推理得到聲明的真假性,需要遠距離的語義交互以及強大的推理能力。Zhou等人[14]首次將圖神經網絡引入事實核查領域,將聲明與每個證據文本句作為圖的節點,同時節點之間采用全連接,通過多層圖注意力層融合語義信息。但是考慮個別證據語句包含的信息可能與當前判定聲明無關,Liu等人[16]提出核圖注意力模型,通過節點核計算獲取每個證據節點的重要性,通過邊緣核計算獲取融合語義特征的證據節點表征。Zhong等人[15]又進一步探究了圖網絡中的語義結構單元的影響,提出用更細粒度的短句作為圖節點表示,以獲得更細粒度的語義交互。而Park等人[12]結合了上述研究方法,提出結合語義層面的圖推理、語句級別的選擇性圖推理以及序列推理三種機制進行推理判斷。這些方法都使模型的推理能力獲得一定程度的提升,但是它們都局限于單一節點,而且也并沒有進一步分析挖掘聲明與證據文本之間的潛在關聯。
本文從提供對聲明虛假性判別更有效的先驗知識出發,更深一步挖掘聲明和證據文本之間的潛在關聯,構建更直接有效的圖神經網絡模型。
本節將主要介紹本文提出的基于跨證據文本實體關系的圖卷積神經網絡模型。該模型核心思想是通過證據句整體語義向量與其包含的實體語義向量相連建模證據句內部語義信息,通過不同證據句之間的相同實體鏈接建模證據句外部語義信息。以實體作為信息聚集的中心,以實體之間的關系作為信息傳播的基礎,使模型能準確收集到與聲明中包含的實體相關的屬性信息,同時在一定程度上減少噪聲信息的干擾,然后利用圖注意力機制提取與當前判別聲明相關的語義特征,最終獲得虛假性判別結果。模型整體結構如圖2所示。

圖2 CERM模型結構圖
我們從圖的節點設立、圖的節點連接和圖的計算等三個方面進行了改進。本節將著重介紹如何利用上述關鍵思想搭建圖神經網絡并講解初始化邊的方法,同時說明實現信息聚集和傳播的計算方式。
首先對每個證據文本用AllenNLP命名實體識別工具標注出其包含的實體,數據集中每個證據句會有相應的文檔標題,我們會默認將其加入到該句實體集中,然后依次將每個證據文本句送入預訓練模型,提取[CLS]對應的隱藏向量Si∈R1×d作為該證據文本的表示節點, 其中d為預訓練模型隱藏層向量維度,同時提取實體處的隱藏向量{hi,hi+1,…,hj},求平均值作為該實體的表示Ei∈R1xd,然后執行以下步驟:
(1) 將提取出的所有證據句節點Si和其包含的所有實體節點Ei作為圖初始節點;
(2) 每個證據句節點Si指向其包含的實體節點Ei;
(3) 同一個語句包含的實體節點之間雙向連接(同一語句的實體之間存在語義關聯);
(4) 不同語句的相同實體節點相互連接(捕捉跨語句的語義聯系)。
構建示例如圖3所示,證據文本與實體之間單向連接,即證據文本的信息只流向其包含的實體節點,相同實體節點之間雙向連接,即不同證據文本的相同實體之間相互交換信息。至此可以得到一個異構圖G,圖中有兩個類型的節點{S,E},分別是證據節點S和實體節點E,所有節點向量的維度相同。

圖3 圖網絡搭建示例
搭建相應的異構圖后,需要通過多層圖卷積操作匯集每個鄰居節點的重要信息。通過前面步驟可以得到異構圖G=(V,E),V表示各個節點,包括證據節點Si∈R1×d和實體節點Ei∈R1×d。 首先對鄰接矩陣進行拉普拉斯歸一化,如式(1)所示。
A∈Rn×n為圖的鄰接矩陣,其中Aij表示節點i與節點j之間的權重。D表示度矩陣,其中Dij=∑jAij。
然后通過L層卷積層操作聚集鄰居節點的信息,同時傳播自身信息,以此更新每個節點的表示,如式(2)所示。
其中,H(l)是第L層節點的表示,σ表示激活函數。W是可學習的注意力權重矩陣。受文獻[13]Wang等人提出的用PMI初始化邊權重的啟發,本文設置了實體相關度I,用兩個實體在候選證據句中的共現頻率來表征兩個不同實體之間的相關度,計算公式如式(3)~(6)所示。
Ns是候選語句個數,Nei是包含實體ei的語句個數,N(ei,ej)是同時包含實體ei和實體ej的語句數。所以P(ei)是實體i在所有證據文本中出現的頻率,P(ei,ej)是實體i與實體j之間的共現頻率。因此I可以反映兩個實體之間的關聯程度,共現頻率越高,邊權重越大。另外,證據節點與其包含的實體節點之間的權重統一設為1。通過多層卷積計算后得到各證據句實體節點集合He={He1,He2,He3,…,Hek}。
在經過多層圖卷積操作后可得到最終的圖節點語義表征,再通過圖注意力機制提取特定于當前聲明的證據表示。首先將聲明文本經過預訓練模型,提取[CLS]對應的隱藏向量Hc作為聲明的語義向量,然后計算每個實體節點與聲明的權重。
其中,“||”表示拼接操作,W0∈RH×2,W1∈R1×H,qj表示第j個實體節點對聲明的重要性。接著對權重進行歸一化處理,然后計算各節點的權重和,作為與當前聲明相關的綜合證據表示。
最后將聲明與證據表示拼接送入分類線性層得到各類別置信度,如式(10)所示。
其中,W2∈RC×2H,b∈RC×1,C為標簽類別個數。
本節將簡要描述證據檢索和證據篩選階段所采用的方法。在證據檢索階段,目前較為常見的方法有基于增強的序列推斷模型和BERT類的預訓練模型的相似度計算,但這些方法難以學習到聲明與證據文本之間的深層語義關聯,同時極易遺漏一些與聲明隱式相關的證據句。因此本文在相關性模型訓練階段使用了不同的正負樣本構建策略,在提取階段采用了啟發式的證據句提取算法,保證該階段具有較高的召回率,進一步提升虛假性判別階段的準確率。
證據檢索階段我們主要參照Hanselowski等人[17]的工作。首先通過標題匹配來進行初步篩選,再逐個遍歷語料庫文章,若包含聲明中的成分短語,則進入候選集。然后進行第二階段的匹配篩選,逐個計算聲明與候選證據文本的TF-IDF相似值。最后選取Top-K相似的文檔進入證據篩選階段。
通過證據檢索獲取的證據文檔往往篇幅較長,包含大量與聲明無關的噪聲信息。同時按句切分會分割連續語義,遺漏重要的上下文信息。如圖4中的證據示例,證據(2)是驗證聲明的重要線索,但該句與聲明無顯式聯系。為了捕獲更深層次的結構信息,我們采用交互式相似度模型[28]學習兩段文本之間的語義關聯。同時為了防止遺漏重要的隱式證據信息,本文采用啟發式的證據提取算法,對重要證據線索的上下文進行二次低閾值搜索。

圖4 檢索過程中存在的隱式證據句示例
在交互式相似度模型訓練階段,我們從難易樣本兩個角度構建負樣本,一是從全局文檔庫中隨機采樣,確保模型學到更均勻的向量空間;二是采樣正確證據句所在文檔的其他證據句,這些語句往往與聲明中的某實體相關,但不能為其真假性提供證據,該類樣本的加入能讓模型學到更深層次的語義特征。正樣本則來自數據集中給定的正確證據句。然后將聲明、證據句所在文檔標題以及證據句在輸入處拼接:[CLS]+Claim+[SEP]+Title+Evidence+[SEP],送入預訓練模型BERT,提取[CLS]向量h[CLS]作為當前輸入的語義表示,然后通過激活函數得到候選證據的相似度分數,如式(11)所示。
然后通過啟發式提取算法得到最終的證據集合。該算法的核心思想是計算聲明與所有候選證據句的相似度后,對相似度較高的證據句的上下文進行二次低閾值搜索。若相似度高于低閾值則加入證據結果集中,以此避免遺漏重要的隱式證據信息。將最終生成的證據句集合作為虛假性判別的證據文本,具體流程如算法1所示。

算法1 證據句提取算法過程輸入:Input=(C, D1, D2,…, Dn), Di表示證據檢索后得到的第i個文檔,C表示聲明語句。輸出:Output=(S1,…, Sk), Si表示檢索得到的第i條證據句。1 初始化高閾值θ1和低閾值θ2。證據文檔按句切分,然后將聲明與每個證據語句拼接得到L=[l1,l2,…,ln], li=[CLS]+[claim]+[SEP]+[title]+[sentence]+[SEP],Model:Bert預訓練模型, N:證據語句總數量。2 for i=1; i 我們在公開數據集FEVER上進行實驗,該數據集共包含185 455條聲明和5 416 537篇維基百科文檔,表1展示了數據集具體情況。虛假性類別有三類,分別是證實(SUPPORTED)、駁斥(REFUTED)和證據不足(NOT ENOUGH INFO)。 表1 FEVER數據集分布 為了更有效地評估事實驗證模型的性能,主要采用兩個評測指標,一是標簽的準確率(Label Accuracy,LA),即預測正確的標簽占比;另一個評價指標是FEVER Score(F.S),它同時考慮了標簽的準確性和證據文本是否篩選正確。 我們分別基于預訓練模型BERT和RoBERTa進行實驗,文本最大長度設為100,Batch Size均設為64,采用Adam優化器,學習率統一初始化為2e-5,同時使用余弦學習率衰減器。考慮訓練過程中會出現過擬合,將Dropout均設為0.2。語句篩選階段中的θ1設為0.9,θ2設為0.7。每一組實驗結果均為設置三個不同隨機種子結果的平均值,所有實驗均在NVIDIA 3090上完成。 我們對比了七個基線模型,包括評測的Top方案[17]和后續相關的研究[14-16,29]。 (1) FEVER 1評測任務中的前三名模型: Athene[17]是將證據文本向量和聲明拼接后通過自注意力機制獲得最終向量;UCL MRG[9]是預測每個證據-聲明對的標簽,再綜合計算最終標簽;UNC NLP[19]是用同一語義匹配模型連接三個階段的任務,同時考慮了界面的瀏覽頻率等外部信息,在評測任務中取得了最好的結果。 (2) 基于預訓練模型的方法:BERT-Concat模型是將聲明與獲得的所有證據文本拼接送入Bert模型;BERT-Pair模型是單獨將每個證據文本與聲明拼接送入BERT模型,然后使用自注意力機制提取得到最終的隱藏向量。 (3) 其他圖神經網絡模型:GEAR[14]模型將各證據語句作為節點,建立全連接圖,使用圖注意力機制匯聚各證據句信息;KGAT[16]模型提出核圖注意力機制,邊核注意力機制傳播證據信息,頂點核注意力機制計算各證據節點的重要性;DREAM[15]模型使用SRL解析語句,并以得到的各短語作為節點構建圖神經網絡;LOREN[29]模型基于邏輯規則組合得到各聲明真假性。 我們分別實驗了不同預訓練模型和證據檢索方法下各模型的效果,表2展示了本文提出的模型與其他基線模型的對比結果。 表2 各模型在FEVER數據集上的實驗結果 (單位: %) 續表 可以看到,本文提出的模型CERM在不同預訓練模型基礎上LA和F.S值相比基線模型均提升2%左右。除以邏輯規則為基礎的LOREN模型,以圖神經網絡為基礎的GEAR、KGAT、 DREAM和CERM模型要明顯高于基于預訓練模型的微調方案和其他序列模型,證明了圖神經網絡模型在該任務上的有效性,它具有更強的推理能力。其次,在使用相同的證據篩選方法下,本文提出的CERM模型相比其他模型在各項指標上均有較為明顯的提升。可見本文依據實體關系進行圖建模可以達到更好的判別效果。最后,在使用本文的證據篩選方法下,虛假性判定結果的準確性得到進一步提升,最終結果優于所有對比模型。 4.2.1 消融實驗 本文從圖的構建和圖的計算方式等多個方面進行了優化,為了更全面地評估模型各部分對實驗結果的影響,我們進行了一系列的消融實驗。 (1) 圖節點單元的影響 為了驗證本文提出的基于跨證據文本實體關系的圖網絡構建方法的有效性,我們將三種以不同特征粒度作為圖網絡節點的方法進行對比,實驗結果如表3所示。Sentence是以每個證據句作為節點的全連接圖[14],Phrase是將語句中包含的短語作為節點的全連接圖[15]。本文則是采用以實體節點為中心,證據句節點輔之的構建方式。圖卷積計算與注意力機制計算各模型皆相同。 表3 不同圖節點設立方式的實驗結果 (單位: %) 從表中可以看到,結合實體和語句粒度構建圖網絡的效果最好且性能提升顯著,可見以實體關系為橋梁連接證據為模型提供了更充分的先驗知識,增強了模型的推理能力。 (2) 圖節點連接方式的影響 本文基于證據之間的實體共現關系連接各個實體節點,以提供更有效的先驗知識,讓相同實體對象的信息聚集,減少不同實體對象信息的干擾。為了驗證該結論,我們設計了相應的對比實驗,實驗結果如表4所示。其中,fully connected是將證據集合所有的實體對象進行全連接,entity connected是將相同證據的實體和不同證據的相同實體相連,各邊權重均為1。可以看到,基于實體關系連接的圖網絡性能更好。 表4 不同節點連接方式下的實驗結果 (單位: %) 另外,我們設立了關于邊權重的消融實驗,分別實驗了權重均設為1和用實體之間的共現頻率初始化兩種方式。實驗結果如表5所示。 表5 不同邊初始化方式下的實驗結果 (單位: %) 從表5可以看出,使用實體之間的共現頻率初始化邊權重的效果略好,在LA和Fever Score兩個指標上均有所提升,可以證實以實體之間的共現頻率初始化邊權重能夠增強圖網絡的學習能力。 4.2.2 樣例分析 我們從實驗結果中選取了部分預測正確的樣例進行分析,如表6所示。(a)樣例中,由第一條證據可知David Beckham與Victoria是夫妻關系,由第二條證據可知Brooklyn是David Beckham的兒子,綜合這兩條信息可知聲明是正確的,但KGAT模型預測為“駁斥”(虛假聲明),GEAR模型預測為“證據不足”,可見本文模型更好地捕捉到了實體之間的關聯性。再如(b)樣例,由第一條證據可知聲明是虛假的,但是GEAR和KGAT模型均將其預測為“證實”, 推測由于二者均是直接將證據進行單詞級別的融合,從而使第二條證據對模型產生了誤導。而本文提出的CERM模型在學習過程中不同實體的信息會有不同的流向,能更好地學習到證據文本中各個實體所包含的信息,同時減少其他實體信息的干擾,從而避免了此類錯誤。 表6 CERM預測正確的例子 本文提出了基于跨證據文本實體關系的圖卷積網絡模型用于事實核查任務,旨在基于證據文本之間的多重實體關系構建信息交互網絡,提供對事實核查任務更有效的先驗知識,提升模型的推理能力。通過實驗發現,本文的方法能有效地捕捉到實體的相關屬性信息和實體間的語義關系,在事實核查任務上效果提升明顯。通過對現實數據分析發現,事實核查任務需要模型具有大量的先驗知識,可見在模型中引入外部知識可以顯著提升模型預測效果。同時隨著社交媒體的發展,網絡上傳播的大多數數據包括圖文等多種形態,結合多模態數據綜合分析將會是未來的研究方向之一。4 實驗

4.1 實驗設置
4.2 實驗結果和分析






5 結論