伊海迪,石一鳴,楊博,杜新玉,劉旭紅
(北京信息科技大學計算機學院,北京100000)
煤炭是我國的基礎能源,我國多數(shù)煤礦建設了安全監(jiān)測監(jiān)控、綜合信息化網絡信息管理等各類系統(tǒng),但是煤礦重大災害總量仍居高不下,本文將建立煤礦領域知識圖譜,融合各種來源的數(shù)據(jù),為災害分析和預防提供幫助。
隨著知識圖譜技術的發(fā)展,國內外相繼出現(xiàn)了許多大型的知識圖譜,例如:DBpedia、Freebase、YAGO,以及百度的知心搜狗的知立方等,皆為綜合性知識譜圖,在很多特定領域例如煤礦領域,仍然沒有建立完整的知識圖譜。
實體關系抽取是構建知識圖譜的關鍵步驟,研究人員提出多種算法用于提高實體關系抽取結果的正確率。Miller等[1]提出了基于完全語法解析樹的方法,在解析樹中增添了對應于實體和關系的語義信息,并建立生成模型集成了命名實體識別和關系抽取等任務,以尋求全局優(yōu)化;Claudio等[2]考慮了實體及其上下文特征、動詞特征、距離特征、實體擴展特征等,并將關系抽取轉化成一個基于SVM的分類問題;黃鑫[3]通過單獨選取詞法、實體和基本短語塊為基本特征,使用SVM工具進行關系抽取,發(fā)現(xiàn)組合特征能顯著提高關系抽取的性能;毛曉麗[4]提出了基于特征選擇的實體關系抽取方案,引入了文本分類中的特征選擇算法,如信息增益、期望交叉熵和x2統(tǒng)計,有效地實現(xiàn)了實體關系抽取中的特征空間降維。
對于上述四種改進方法,對于實體關系抽取的準確率都有不同程度的提升,但其本質都為監(jiān)督學習方法,需要大量的人工標注,在數(shù)據(jù)量日益劇增的環(huán)境下,為降低人工成本,在此使用遠程監(jiān)督方法,通過知識庫對齊樸素文本的方式進行實體對標注。接著通過編寫啟發(fā)式規(guī)則減少遠程監(jiān)督方法產生的噪聲數(shù)據(jù),實現(xiàn)對煤礦領域“發(fā)生”關系的抽取。
煤礦安全與災害等相關網站蘊含了大量的煤礦災害發(fā)生的信息,為煤礦知識圖譜構建提供了海量的數(shù)據(jù)。根據(jù)煤礦數(shù)據(jù)的特點,本文抽取具有“發(fā)生”關系的實體對,并構建知識圖譜。例如在“棠浦煤礦(國有地方),發(fā)生一起頂板事故”中抽取“棠浦煤礦”和“頂板事故”作為一對具有“發(fā)生”關系的實體對。
網頁大多屬于非結構化數(shù)據(jù),針對該特點,本文提出如下的實體關系抽取框架,如圖1所示。

圖1 實體關系抽取框架
具體步驟如下:
(1)對數(shù)據(jù)進行預處理和實體識別
從網頁上爬取的數(shù)據(jù)含有大量的冗余信息,為了從龐大的數(shù)據(jù)中選取所需的小部分有用信息,需要對數(shù)據(jù)進行清洗,去掉重復數(shù)據(jù),抽取出網頁的數(shù)據(jù)部分,去除標題、摘要、引用文獻以及HTML標簽等無用信息。然后,進行分詞、詞性標注和和命名實體識別。
基于煤礦領域字典,將出現(xiàn)在字典中的實體全部提取,標明每個實體所在的文章和句子位置。
(2)生成候選實體對集合
為了抽取句子中的具有“發(fā)生”關系的實體對,將同一篇文章同一句話的實體進行笛卡爾積運算并去除重復項得到候選實體對。結合實體對表和文章表,使用N-Gram模型提取基于候選實體對的語義特征。
(3)基于遠程監(jiān)督學習產生具有“發(fā)生”關系的訓練數(shù)據(jù)
采用遠程監(jiān)督方法抽取實體關系有助于減輕人工標注的負擔。利用外部知識庫對候選實體對進行一次權重標注,總結候選實體對出現(xiàn)時的特征,設置啟發(fā)式規(guī)則,對候選實體對進行二次標注,將兩次打標結果求和得到每個實體對的權重值。兩次標注大大提高了實體標注的準確率,并且啟發(fā)式規(guī)則也起到過濾噪聲的作用。
(4)基于因子圖[5]進行概率推理
由第(2)步得到的候選實體對包含大量的噪聲數(shù)據(jù),通過進行降噪處理。對第(3)步所得實體對權重表的權值進行二值化處理,得到已知“具有”關系、已知“不具有”關系以及大量“未知”關系的實體對。結合特征表和實體對權重表,統(tǒng)計推理候選實體對間具備“發(fā)生”關系的置信度;其間迭代使用吉布斯采樣和隨機梯度下降算法學習得到候選實體對的特征權重及邊界概率,最終抽取置信度高于規(guī)定閾值的候選實體對,并去掉低于規(guī)定閾值的候選實體對噪聲數(shù)據(jù),即為具有“發(fā)生”關系的煤礦及發(fā)生的事故類型。
下面詳細說明權重標注步驟、啟發(fā)式規(guī)則編寫依據(jù)以及規(guī)則權重給予情況。
遠程監(jiān)督關系抽取的本質是一個帶有稀疏和噪聲特征的多標簽分類問題。其產生的噪聲數(shù)據(jù)主要分為兩種,一種是多實例問題,即與外部知識庫對齊所得實體對并不包含指定關系;另一種是多標簽問題,即同一實體對在外部知識庫中有多種關系標簽[6]。由于本文研究面向煤礦領域,只抽取一種“發(fā)生”關系,所以,本文所做實驗不存在多標簽情況。為此,本文主要研究多實例問題,并提出以下解決方法。
由實驗步驟(3)可知本實驗通過對所得實體對進行兩次打標來降低噪聲數(shù)據(jù)對關系抽取的影響,打標過程如圖2所示。由于本實驗抽取的實體關系為煤礦與事故間的“發(fā)生”關系,可知,“發(fā)生”關系為單向關系,所以在每句話抽取的多個實體進行的笛卡爾積結果中,對于實體對只有A為發(fā)生事故的煤礦,B為煤礦發(fā)生的何種事故這種情況為正確實體對。由于在引用外部知識庫進行初次打標時,對于出現(xiàn)在知識庫中的實體對就給予較高權重,所以需要在啟發(fā)式規(guī)則中對反向實體對給予低權重以抵消初次打標的高權重。并且,通過觀察數(shù)據(jù)清洗后的煤礦領域文章,可以發(fā)現(xiàn)更多兩實體“具有”或“不具有”“發(fā)生”關系的規(guī)律,將此規(guī)律寫入啟發(fā)式規(guī)則以提高實體對權重標注的準確率。

圖2 實體對打標圖
通過觀察整體數(shù)據(jù),挑選出具有代表性的“具有”和“不具有”“發(fā)生”關系的例句,總結為表1:

表1 “發(fā)生”關系類型表
觀察實驗數(shù)據(jù),總結“發(fā)生”關系成立或不成立的特點及該特點對“發(fā)生”關系成立與否的影響程度大小,編寫啟發(fā)式規(guī)則及其打標權重如下:
(1)同時出現(xiàn)在知識庫和實體對表中的實體對給予權重3。
(2)兩實體AB間有發(fā)生關鍵字且實體A在實體B之前(正向),給予權重2。
(3)兩實體AB間有發(fā)生關鍵字且實體B在實體A之前(反向),給予權重-10。
(4)兩實體AB間無發(fā)生關鍵字,給與權重-10。
(5)兩實體AB間有另一實體C,給予權重-10。
(6)兩實體AB間有特殊符號,給予權重-1。
(7)兩實體AB相距過遠,給予權重-1。
通過觀察常用句式特征,發(fā)現(xiàn)實體對是否具有“發(fā)生”關系的特征具有標志性,通過特征1、2,可以判斷此實體對極大可能具有“發(fā)生”關系,故給予較大的正權重,通過特征3、4、5可以很明確判斷此實體對極大可能無“發(fā)生”關系,故給予了較大的負權重。而對于規(guī)則6、7出現(xiàn)情況較少且對于實體對不具有“發(fā)生”關系不提供明確證據(jù),故給予較低負權重。
遠程監(jiān)督方法結合啟發(fā)式規(guī)則,可有效提高標注數(shù)據(jù)的質量,對于知識庫中未包含的實體對可以進行更加準確地判斷,大大減輕了噪聲數(shù)據(jù)對關系抽取的負面影響;有利于提高因子圖模型判別實體關系的效果。
本文面向煤礦領域數(shù)據(jù)構建因子圖模型,進一步減少噪聲數(shù)據(jù)。根據(jù)各實體對共享不同特征的情況,計算實體對具有發(fā)生關系的邊界概率;結合吉布斯采樣降低計算維度,在不影響實驗準確率的情況下減小了機器的工作量,提高了工作效率;并采用隨機梯度下降進行迭代學習,直至模型收斂。
因子圖就是對函數(shù)因子分解的表示圖,一般含有兩種節(jié)點,變量節(jié)點和因子節(jié)點。通過因式分解可以將一個全局函數(shù)分解為多個局部函數(shù)的積,這些局部函數(shù)和對應的變量就能體現(xiàn)在因子圖上。例如現(xiàn)在有一個全局函數(shù),其因子分解方程是:g(x1,x2,x3)=fa(x1,x2)fb(x1,x2)fc(x2,x3)fd(x3),因子圖表示如圖 3 所示:

圖3 因子圖示例
如表2所示為實體對-特征示例表,實驗中的實體對vi(i=1,2,3…)作為模型的變量節(jié)點,每對實體對都具有關系標簽(T,F(xiàn),NULL),分別表示實體對“發(fā)生”關系為“具有”、“不具有”、待判斷,標簽值在學習過程中不斷更新。實體對所具有的特征集合為模型的因子節(jié)點fi(i=1,2,3…),每個實體對具有至少一種句內特征即每個因子節(jié)點至少和一個變量節(jié)點相關聯(lián)。

表2 變量節(jié)點-特征示例表
因子節(jié)點和變量節(jié)點的連線稱為因子圖的邊集,不同的因子節(jié)點,通過共享變量節(jié)點而相連,各特征經函數(shù)映射轉化為關聯(lián)權重因子wi=func(feature),可得特征因子-特征函數(shù)表如表3所示:

表3 特征因子-特征函數(shù)表
根據(jù)已知實體對權重值以及特征推理未知實體對權重值并完成因子圖構建,
由公式 Pr(I)∝ measure{w1f1(v1,v2)+w2f2(v2)}[7],首先計算實體對每種情況下的概率值,例如實體對(v1,v2)label值有四種可能情況:(1,1)、(1,0)、(0,0)、(0,1),然后計算 Pr(1,1)=Pr(1,1)/Pr(1,0)/Pr(0,0)/Pr(0,1)得到兩實體對label都為1時的概率,由此可以判斷出未知label的實體對標簽。
具體推理過程如圖4所示。借助因子圖模型良好的統(tǒng)計和推理性能,可計算得到全部候選實體對具有“發(fā)生”關系的置信度;通過嘗試多次試驗,設置關系判別的閾值α(如α=0.5);篩選出置信度高于該閾值的實體對,即實現(xiàn)“發(fā)生”關系抽取任務。

圖4 構建因子圖示例
本實驗所用數(shù)據(jù)為煤礦安全網、煤礦事故網、安全管理網上爬取的事故新聞、分析報告,使用WebMagic框架,分析新聞標題XPath,爬取數(shù)據(jù)。數(shù)據(jù)清洗后,共剩余2418篇煤礦領域文章,所抽出實體經過笛卡爾積運算并篩選后共得到8054對實體對。其中訓練數(shù)據(jù)占總數(shù)據(jù)的80%。
圖5為正確率圖,將測試集中的數(shù)據(jù)對應的推理出的概率值取其與 k/10 的近似值,其中 k=1,2,3,…,10,即將概率值分為10個概率桶,圖片顯示了每個概率桶的正確預測的比率。理想情況下,實線應遵循虛線,對于高概率桶,表示系統(tǒng)發(fā)現(xiàn)大量證據(jù)對較高概率桶的正面預測,對于較低概率桶,系統(tǒng)發(fā)現(xiàn)線性預測證據(jù)數(shù)量較少。在本實驗中,引入遠程監(jiān)督方法降低人工標注工作量,由此產生的噪聲數(shù)據(jù)未去除干凈和訓練數(shù)據(jù)的稀疏等原因會使實線在虛線上下浮動,此情況在正常范圍之內。

圖5 測試集正確率圖
圖6中的兩個圖分別為測試集和訓練集的總預測數(shù)。理想情況下,這些圖應遵循左高右低的U形曲線。圖中橫軸表示實體對具有發(fā)生關系的置信度,縱軸表示具有這種置信度的實體對數(shù)量。由圖6(1)、6(2)可以看出本實驗結果符合正確預測,由于引入遠程監(jiān)督方法產生大量噪聲數(shù)據(jù)使得生成大量置信度為0的實體對,在后續(xù)步驟中使用啟發(fā)式規(guī)則很好地去除了此類噪聲數(shù)據(jù)。

圖6
在本實驗中,2418篇文章抽取的8054對實體對中,包含大量因遠程監(jiān)督和笛卡爾積運算產生的噪聲數(shù)據(jù),由圖6(2)可以看出系統(tǒng)預測出較多置信度為0的實體對,這其中有較大一部分為噪聲數(shù)據(jù)。通過分析實驗計算得到數(shù)據(jù)精確率(P)、召回率(R)、F值如表4。可以看到,本實驗P、R、F值均在85%以上,由此可以得出本文所提方法,適用于煤礦領域“發(fā)生”關系抽取。

表4 P、R、F表
本文基于特征向量對煤礦領域實體關系進行抽取,為構造煤礦領域的知識圖譜做好了前期準備,通過編寫爬蟲及數(shù)據(jù)清洗腳本,結合本實驗所需信息特征,從大量數(shù)據(jù)中準確獲取有用信息。在訓練數(shù)據(jù)的過程中結合遠程監(jiān)督以及啟發(fā)式規(guī)則提高抽取結果的準確率,降低噪聲數(shù)據(jù)對抽取結果的影響。最后基于因子圖模型推理出候選實體對具有“發(fā)生”關系的邊界概率,實驗結果表明,本文提出的算法具有較高的準確率,適用于煤礦領域“發(fā)生”關系的抽取。
本文對于煤礦領域只抽取了“發(fā)生”這一種關系,實際上煤礦領域具有價值的關系還有“責任”、“因果”和“分類”等,如何一次抽取實體間的多種關系是下一階段的研究方向,在此基礎上,構建一個完整的煤礦領域知識圖譜。