鄧興宇,胡雙演,李 釗,隋中山,3,孫登會
(1. 第二炮兵工程大學,陜西 西安 710025;
2. 二炮駐石家莊地區軍事代表室,河北 石家莊 050081;
3. 第二炮兵工程大學 士官學院,山東 濰坊 262500;
4. 中國人民解放軍96161部隊,安徽 池州 242800)
?
基于SVSM的裝備故障案例相似度匹配算法
鄧興宇1,胡雙演1,李釗2,隋中山1,3,孫登會4
(1. 第二炮兵工程大學,陜西 西安 710025;
2. 二炮駐石家莊地區軍事代表室,河北 石家莊 050081;
3. 第二炮兵工程大學 士官學院,山東 濰坊 262500;
4. 中國人民解放軍96161部隊,安徽 池州 242800)
摘要分析和總結了電子防護裝備故障案例的特點,設計了電子防護裝備故障診斷的領域本體。利用本體在表示案例時所體現的語義關聯信息,提出了基于領域本體的語義特征向量空間模型(Semantic Vector Space Model,SVSM),彌補了傳統的向量空間模型在描述故障特征項語義關聯度時忽略了文檔詞條的位置和結構因素的缺陷。引入自定義權值的語義特征項標志位,提出了一種改進的基于案例推理的電子防護裝備故障診斷算法,提高了SVSM各維度值的準確性和相似度匹配算法的自由度。通過實驗,驗證了算法的有效性和可靠性。
關鍵詞案例推理;故障診斷;領域本體;語義向量空間模型;相似度匹配;電子防護系統
Similarity Matching Algorithm of Equipment Fault Case Based on SVSM
DENG Xing-yu1,HU Shuang-yan1,LI Zhao2,SUI Zhong-shan1,3,SUN Deng-hui4
(1.TheSecondArtilleryEngineeringUniversity,Xi’anShaanxi710025,China;2.MilitaryRepresentativeOfficeofPLASecondArtilleryForcesStationedinShijiazhuangRegion,ShijiazhuangHebei050081,China;3.SergeantCollegeoftheSecondArtilleryEngineeringUniversity,WeifangShandong262500,China;4.Unit96161,PLA,ChizhouAnhui242800,China)
AbstractThe domain ontology of electronic protective equipment fault diagnosis is designed by analyzing and summarizing the characteristics of equipment fault cases. Considering that the traditional vector space model (VSM) ignores the role of the document entry position and structure factors in describing the semantic correlation of fault features,the semantic vector space model (SVSM) based on semantic characteristics of domain ontology is proposed by exploiting the advantages of ontology in semantic knowledge representation. The accuracy of each dimension value of SVSM and the flexibility of the similarity matching algorithm are improved by using the flags of semantic characteristics weights,and the electronic protective equipment fault diagnosis algorithm based on case-based reasoning (CBR) is proposed. The validity and reliability of the algorithm are proved through experiment.
Key wordscase-based reasoning;fault diagnosis;domain ontology;semantic vector space model;similarity matching;electronic protection system
0引言
電子防護裝備在提高部隊作戰效能的同時,對保障人員快速診斷及維修裝備故障的能力也提出了更嚴格的要求。電子防護系統故障機理復雜和缺乏系統專家維修知識的裝備,應用基于案例推理(Case-based Reasoning,CBR)的故障診斷方法具有明顯優勢。CBR故障診斷方法通過模擬人類求解問題的思想,借鑒歷史案例,經調整修改后以解決新的問題,具有知識獲取簡單,求解質量效率較高等優點[1]。案例推理的主要過程包括案例檢索、重用、修正和存儲這4個步驟,其中相似度匹配是案例檢索及重用的核心,直接決定CBR系統的速度和精度。
針對目前案例檢索主要采用基于特征項關鍵詞的匹配,而缺乏對案例語義信息利用的現狀,本文引入基于本體的案例表示,利用案例間的語義關系驅動案例推理的過程,從而極大地提高了CBR的效能。
1基于本體的裝備故障案例表示
CBR系統中的知識以案例的形式存儲,案例描述的完整性和表示形式的有效性是CBR的基礎,其主要目的是抽取領域知識中隱含的事實、關系及業務流程,便于計算機識別、理解及應用[2]。目前,常用的框架和面向對象等知識表示方法缺乏對案例語義信息的描述,而語義網以知識本體作理論基礎,通過對知識本體進行理解和推理,可以得到滿足用戶需求的語義信息,故本文引入本體理論來表示故障案例。
本體可以形式化地表示為一個7元組:O={C,AC,R,AR,H,X,I},其中C是概念的集合,AC表示概念屬性的集合,R是關系的集合,AR表示關系屬性的集合,H是層次的集合,I是實例的集合,X是公理的集合[3]。構建裝備故障診斷領域本體的關鍵在于確立該領域概念范圍(類)、屬性和故障實例3個部分[4]。裝備故障案例的主要組成有3種基本元素:數值型、布爾型和文本型。其中,數值型和布爾型易于處理,文本型是數據處理的難點所在。為了便于計算,先對故障案例文檔進行預處理,包括分詞、去掉停用詞、語義標注和生成關鍵詞詞頻矩陣等。首先采用NLPIR/ICTCLAS 2015分詞系統[5]對案例文檔進行分詞;然后采用哈工大停用詞表去掉停用詞,得到案例集詞表[6];再采用交叉信息熵[7]的算法提取關鍵詞,建立關鍵詞詞頻矩陣;最后抽取案例文檔集中的相關概念,構建出本體概念、屬性和故障實例。
1.1故障案例領域本體建模
本文設計的故障案例領域本體概念主要有:案例信息本體、案例特征本體、案例方案本體、故障代號本體和案例資源本體。
案例信息本體OI是指案例發生的背景信息,可表示為5元組:OI={ID,EI,UI,TI,WI},其中ID為案例編號,EI為故障裝備名稱,UI為使用單位,TI為故障時間,WI為檢修人員。
案例特征本體OC是指裝備發生故障時的狀態描述,也是故障診斷的關鍵信息,可表示為6元組:OC={EC,MC,AC,FC,SC,WC},其中EC為故障裝備代號,MC為故障模塊代號,AC為故障部位代號,FC為故障模式,SC為故障等級,WC為故障特征權值。
案例方案本體OF可表示為5元組:OF={CF,IF,EF,AF,NF},其中CF為故障原因分析,IF為故障隔離策略,EF為故障排除方法,AF為故障排除效果評價,NF為該案例被成功匹配使用的次數。
故障代號本體ON是為便于系統推理所設計的代號本體,可表示為4元組:ON={EN,MN,AN,FN},其中EN為故障裝備代號,AN為故障部件代號,MN為故障模塊代號,FN為故障模式的代號。
案例資源本體OS是指案例所涉及的其他資源,可表示為4元組:OS={PS,VS,MS,TS},其中PS為圖片資源,VS為視頻資源,MS為音頻資源,TS為文檔資源。
1.2概念間的屬性定義
本文定義的領域本體屬性如表1所示。其中,對象屬性(Object Properties)包括故障診斷的目標裝備,裝備故障時對應的操作規程和動作部件,針對該案例的故障類型判別、原因分析、隔離策略及排除方案等。數據屬性(Data Properties)包括故障特征參數和關鍵字,以及對該故障排除效果的評價、被成功匹配使用的次數和補充說明等。注釋屬性(Annotation Properties)是指對故障原因分析、隔離策略及排除方案的文本表述。

表1 裝備故障診斷領域本體屬性列表
1.3本體庫的構建
本文定義的實例包括裝備對象實例、故障特征實例、故障排除實例和測試實例。裝備對象實例包括裝備編號、裝備名稱和裝備組件實例。故障特征實例是案例庫中記錄的真實故障案例,包括故障部位、故障等級和故障現象等。故障排除實例是該故障的原因分析、隔離檢測和處理方案。測試實例是用于推理測試的目標故障案例。本文采用本體開發工具Protégé進行電子防護裝備故障診斷領域本體的構建,Protégé是語義網中本體構建的核心開發工具。它提供了本體概念、關系、屬性、層次、實例和公理的構建,并且屏蔽了具體的本體描述語言,只需在概念層進行領域本體模型的構建[8]。本文建立的電子防護裝備本體知識庫如圖1所示。

圖1 電子防護裝備本體結構
2基于SVSM的案例相似度匹配優化算法
電子防護裝備故障案例的主要數據屬于文本類型,由于中文語言的特點,對文本特征項的相似度匹配是案例推理故障診斷系統的難點問題。
2.1基于領域本體的語義向量空間模型
向量空間模型(Vector Space Model,VSM)的基本理論是:文檔包含的信息只與所含詞條在該文檔中出現的次數有關,而與詞條出現的順序或位置無關,文檔空間可視為由一組正交向量組成的向量空間[9]。VSM首先建立基于詞條或短語的關鍵詞字典,然后采用TF-IDF[10]等方法將案例表示成多維向量,再采用反轉文檔或二進制向量等方法將案例表示出來。由于傳統的向量空間模型忽略了文本詞條的位置和結構因素對表述故障癥狀的作用,因此本文提出SVSM,采用本體庫代替包含關鍵詞的字典,利用案例文檔中涵蓋的概念及其屬性所組成的語義特征向量來表示案例[11]。
定義只包含正半軸的n維向量空間P:

(1)
式中,每個維度n都表示一個語義領域,并且各領域之間是正交的。除語義領域的數量外,領域空間的維度不受其他因素的影響。語義特征向量仍以中文詞條作為案例的特征項,每個特征項s在空間中的向量表示為:

(2)
式中,sk∈[0,1],k∈{1,2,…,n}表示特征項與語義領域k的相關度,并且它的值越大則該特征項與領域k的相關度就越高。由于空間中的坐標軸只包含正方向,所以各特征向量之間的夾角滿足cosθ∈[0,1]。
本文針對案例特征項在語義領域空間的關聯度和該特征項對案例文檔的重要程度,將特征項與語義空間中各領域的相關度作為語義特征,特征項在案例文檔中的特征權重作為統計特征,將案例的語義特征向量表示為:

(3)

2.2語義特征向量的計算及自定義加權
為計算案例文檔特征項在語義領域空間中所對應的具體向量,結合圖論和本體知識表示方法,將特征項與語義領域的關系用語義關聯圖來表示[12]。本文將語義關聯圖定義為一個以命名類概念為領域結點,以匿名類概念為非領域結點,不同的關系屬性為不同權值的語義鏈接邊的有向無環圖:G=
為提高案例檢索速度和準確度,在構建系統知識庫時,針對每個結點設置一個可為空的特征標志位,用以改善語義向量空間模型的加權方式,即根據案例集中的文檔特征來自定義加權。標志位可用來記錄:
① 加權系數:特征項加有數值標識時,根據給定的加權系數計算權重;
② 特征標識:給案例集中的文檔加注“標簽”標識,在構建特征向量時,根據標識調節權重。
并約定多級領域結點的權重計算關系為:

(4)


(5)
現在假設文檔事先已有c個特征標識,這些被標識的特征項表示為s1,s2,…,sc,加權系數分別為θ1,θ2,…,θc,沒有標識的特征項表示為sc+1,sc+2,…,sn,(c≤n),則對應的文本向量表示為:

(6)
自定義特征加權是根據實際需要設定,用來提高案例匹配相似度算法的自由度。
2.3案例語義相似度計算
由于基于余弦的相似度算法不受坐標軸旋轉、放大和縮小的影響,適用于多維向量空間,故本文采用案例di和案例dj之間的特征向量夾角的余弦值來表示相似度。因此,2個案例之間的相似度可以表示為:

(7)
當Sim(di,dj)≥γ(匹配閾值)時,表示案例di和案例dj是相似的,γ一般通過領域專家的經驗來確定。用與2個案例都有關聯的語義領域作為案例之間的相似元,體現了語義對案例的影響,最后求得的相似度值可以近似代表2個案例在語義層次上的相似度。
2.4基于相似度匹配的故障診斷方法描述
對于一個新的目標裝備故障,當用戶按照要求輸入對故障的癥狀特征描述后,采用基于相似度匹配的故障診斷方法如下:
輸入:新的裝備故障特征描述,即目標案例q;
輸出:被標記的源案例;
步驟1:對q進行分詞、去停用詞、提取概念及其關系等預處理;
步驟2:將q的預處理結果與本體庫中的概念進行比對,通過式(4)和式(6)計算q的語義特征向量Vq;
步驟3:通過式(7)計算Vq與案例庫中源案例的語義特征向量的相似度Sim(q,di);
步驟4:若Sim(q,di)≥γ,則案例di進行標記,并將標記的案例集Q按照相似度從高到低的順序排列輸出;
Step5:若Q∈?,則調整閾值γ;若γ<β(最低相似度匹配閾值),則輸出“沒有與目標案例匹配的源案例”,算法結束;否則轉到步驟3。
3實驗結果分析
本文以電子防護裝備故障診斷為例,計算案例庫中若干案例的相似度。針對本文提出的方法,分別設計2組實驗:第1組實驗采用傳統的向量空間模型計算案例間的相似度,第2組實驗采用本文的基于語義特征向量空間模型的案例間的相似度。
故障實例1:席位軟件啟動后顯示無法連接服務器。
故障實例2:啟動席位軟件框架,輸入用戶名和密碼后,顯示無權限訪問。
故障實例3:文電流轉失敗。
故障實例4:席位應用軟件無法正常啟動。
故障實例5:席位應用軟件提示無法連接數據庫。
故障實例6:席位與服務器網絡連接失敗。
根據對案例集的分析以及結合領域本體庫的知識結構,本文將故障案例表示為8維向量:G=[ZB,BJ,MK,ZT,DX,LX,SZ,BE],ZB為故障裝備,BJ為故障部件,MK為故障模塊,ZT為故障出現時裝備所處的狀態或執行的動作,DX為裝備動作的對象,LX為故障類型,SZ為數值類型的數據,BE為布爾類型的數據。針對某一具體的故障案例,部分維度的值可以為空。據此,將上述案例及其各維要素與所在語義領域的關聯權重進行整理,如表2所示,括號內的值為對應特征項的語義關聯權重。

表2 案例的向量表示
按照VSM計算方法[13],可得各故障實例的向量表示為:
D1= (0.240,0.280,0.482,0.482,0.633)
D2= (0.207,0.242,0.547,0.547,0.547)
D3= (0.244,0.644,0.644,0,0.334)
D4= (0.348,0.406,0.698,0,0.476)
D5= (0.256,0.299,0.514,0.676,0.353)
D6= (0.285,0.333,0.572,0.572,0.392)。
按照式(6)計算,可得各故障實例的語義特征向量表示為:
M1= (0.664,0.515,0.421,0.303,0.0.156)
M2= (0.716,0.502,0.334,0.264,0.235)
M3= (0.776,0.501,0.354,0,0.145)
M4= (0.764,0.527,0.348,0,0.129)
M5= (0.718,0.527,0.398,0.190,0.108)
M6= (0.70,0.528,0.414,0.204,0.102)。
再求兩兩向量之間相似度,如圖2所示。

圖2 兩兩向量之間的相似度
從圖2(a)~圖2(f)分別表示在同一向量空間中兩兩故障實例之間的相似度及不同向量空間之間的區別,例如圖2(a)表示實例1分別與實例1~實例6的相似度。由于實驗故障均為指控裝備軟件故障,分析可知,實例1與實例2、實例5和實例6都出現與服務器的連接故障在語義上相似度較高;而實例3、實例4與其他實例的相似度較低,這與實驗結果一致。
實驗表明,基于領域本體的語義特征向量表示的實例之間的相似度高于傳統的向量表示,這與實例之間現實的語義關聯度一致,體現了采用基于SVSM的相似度算法優點:一是對案例包含的概念進行了規范,有效地起到了降維作用;二是充分考慮了文本信息的語義關聯,使得相似度的計算更加準確。
4結束語
在裝備故障案例相似度計算中,傳統方法對中文文本特征項語義關聯度描述的缺乏,本文通過建立裝備故障領域本體庫,引入語義特征向量空間模型,給出了一種基于案例推理的電子防護裝備故障診斷算法。首先對特征項進行預處理,然后結合本體庫計算各領域要素之間的語義關聯度,將案例表示成語義特征向量,最后采用特征向量夾角的余弦值來表示相似度,并通過實驗證明了算法的有效性和可靠性。在后續的工作中,將重點研究通過案例間的相似度和屬性重要度進行案例的約簡及案例庫的維護策略。
參考文獻
[1]SHOKOUHI S V,SKALLE P,AMODT A. An Overview of Case-based Reasoning Applications in Drilling Engineering[J]. Artificial Intelligence Review,2014,41(3):317-329.
[2]WONG F S Y,CHUAH K B,VENUVINOD P K. Automated Inspection Process Planning:Algorithmic Inspection Feature Recognition,and Inspection Case Representation for CBR[J]. Robotics and Computer-Integrated Manufacturing,2006,22(1):56-68.
[3]陸健江,張非亞,苗壯,等.語義網絡原理與技術[M].北京:科學出版社,2007.
[4]李煒卓,魏秀麗,黎檳華,等.基于受限領域本體的中文問句分析[J].計算機應用,2013,33(S1):94-97.
[5]奉國和,鄭偉.國內中文自動分詞技術研究綜述[J].圖書情報工作,2011,5(2):41-45.
[6]顧益軍.中文停用詞表的自動選取[J].北京理工大學學報,2005,25(4):337-339.
[7]熊志斌,朱劍鋒,王冬.K-means聚類算法的研究和應用[J].電腦編程技巧與維護,2014(8):10-12.
[8]唐鵬欽,楊鵬,陳仲新,等.利用交叉信息熵模擬東北地區水稻種植面積空間分布[J].農業工程學報,2013,29(17):96-104.
[9]吳昊,謝紅薇.基于本體和案例推理的高血壓診療系統的研究[J].計算機應用與軟件,2013,30(12):155-159.
[10]RYLEY F J,SAFFER J,Gibbs A. Advanced Document Retrieval Techniques for Patent Research[J]. World Patent Information,2008,30(3):238-243.
[11]FABRIZIO S. Machine Learning in Automated Text Categorization[J]. ACM Computing Surveys,2002,34(1):11-33.
[12]郝文寧,穆新國,陳剛,等.基于軍事訓練本體的文檔向量空間模型構建[J].計算機應用,2012,32(S2):10-12.
[13]柳玉,賁可榮.基于VSM的軟件故障案例相似性匹配算法研究[J].武漢理工大學學報,2010,32 (20):189-193.
鄧興宇男,(1990—),碩士研究生。主要研究方向:機器學習與人工智能。
胡雙演男,(1978—),講師。主要研究方向:圖像處理和目標識別。
作者簡介
中圖分類號TP391.3
文獻標識碼A
文章編號1003-3106(2016)02-0031-05
收稿日期:2015-11-03
doi:10. 3969/j.issn. 1003-3106. 2016.02.08
引用格式:鄧興宇,胡雙演,李釗,等. 基于SVSM的裝備故障案例相似度匹配算法[J].無線電工程,2016,46(2):31-35.