龐亮
(中國人民解放軍92493 部隊,遼寧葫蘆島 125000)
裝備試驗數據是各類裝備試驗活動過程中使用和產生的所有數據的總稱,是裝備數據的重要組成部分。在大數據時代,高質量的裝備試驗數據是裝備可靠運行、試驗數據高效處理,并有效挖掘試驗數據潛在價值的基礎,是減少人力、物力和提升效率的有效途徑。對試驗數據質量評價,有助于了解并掌握試驗數據的不足,為后續試驗數據價值的深度挖掘提供支撐[1-5]。
神經網絡算法各要素之間在結構上交互連接、相互影響,具有較強的自我學習能力。而數據質量的各評估指標之間有些規則往往是相互交叉和關聯的,應用粗糙集對評估指標進行篩選,在保證能力不變的前提下,可有效去除不相關的冗余指標。因此,文中將粗糙集和BP 神經網絡相結合構建評估模型,對裝備試驗數據質量進行定量評估[6-10]。
粗糙集理論是由波蘭科學家Z.Pawlak 提出的,是一種主要用于處理不精確或不相容問題的數學工具,通過對各種屬性進行約簡,從而發掘潛在的信息,在數據挖掘等相關領域得到廣泛應用。可以用一個四元組來表示該系統,即:

其中,L={x1,x2,…,xm}為有限的非空集合;A={a1,a2,…,an}為有限非空的屬性集合;R為屬性a的值域;f為系統函數,f:L×A→R,f(x,a)∈R[11-13]。
BP 神經網絡是基于誤差反向傳播學習的多層前饋神經網絡,常用的為三層BP神經網絡,其原理如下:
網絡的三層結構主要包括輸入層X、中間層Y、輸出層Z。假定理想的輸出層為O,中間層的第j個神經元yj,以及輸出層的第k個神經元zk分別滿足:

其中,wij、aj表示輸入層至中間層的權值和閾值;wjk、bk表示中間層至輸出層的權值和閾值;f1、f2為激活函數。BP 網絡模型是通過對原始激活函數進行迭代訓練,動態調整權值和閾值,從而達到實際輸出與理想輸出之間的誤差最小化[14-16]。
神經網絡具有準確的逼近收斂能力和較高的精度,粗糙集算法可有效簡化網絡模型的訓練樣本,因此,將兩者相結合,就可以得到一種理解方便、收斂速度快的評估模型。具體的試驗數據質量評估流程如圖1 所示。

圖1 試驗數據質量評估流程
由于數據的應用范圍廣泛,應用場景不一,導致對數據的要求多樣化。因此,目前還沒有一套適合所有數據應用領域的通用數據質量評估指標體系。鑒于裝備試驗數據具有屬性多元、來源多維、分布多地、形式多樣等特點,根據裝備試驗數據工程數據的全生命周期特性,分主觀和客觀兩大類別,構建涵蓋十一項指標的裝備試驗數據質量評估指標體系,具體如圖2 所示。

圖2 試驗數據質量評估指標體系
可信性:指對數據的置信和可靠程度。
可理解性:數據準確表達而無歧義的程度。
規范性:評估是否有數據收集、錄入等統一標準規范。
完整性:對數據的結構、內容和其他基本特征進行綜合測量。
及時性:反映數據在預期某一時段內對特定應用的及時程度。
易用性:數據能夠被訪問和使用的程度,以及便于被更新、維護和管理的程度。
重復性:對存在于裝備試驗相關的各系統內部或者子系統間的特定字段、記錄等進行的重復測量。
準確性:數據與實際描述對象的匹配程度。
效用性:數據是否能產生預期效果。
全面性:數據占應收集數據總體的比例。
一致性:在不同地方存儲和使用的同一數據的一致程度。
2.3.1 試驗數據質量評估元
裝備試驗數據的質量評估從主觀和客觀兩個屬性維度出發,構建評估網絡,用X表示主觀屬性,Y表示客觀屬性,K、M表示屬性的權重,權重比例分別用α和β來表示,μ為相關系數,δ是外部影響因子。對于其中一個評估單元來說,X和Y代表輸入,Z代表輸出,其表達式為:

其中,屬性的權重大小就表示對應的評估指標對裝備試驗數據質量評估結果的影響程度。
2.3.2 試驗數據質量評估網絡
精確的評估裝備試驗數據質量需要將多個評估元交互連接,構成多層復雜的網絡評估模型。經過權衡算法的復雜度和評估效果,神經網絡采用三層結構即可滿足任意精度的逼近。
圖3 即為三層裝備試驗數據質量評估網絡,其中,輸入X和Y,輸出為Z,輸出單一分量zi可表示為:


圖3 裝備試驗數據質量評估網絡
裝備試驗數據質量評估模型可以用六元組的形式表示:

其中,D代表需要進行評估的數據集;I代表對D進行評估時選取的指標,針對不同的測試數據集,從評估指標體系中選取不同的指標;R代表與選取指標相對應的評估規則;E代表對每一項規則R的期望值(取值為0~100);S表示每一項規則R的最終得分值(取值為0~100);J表示指標得分S與期望值E進行對比,并將評估結果劃分為合格與不合格兩種,達到期望值即為1,否則為0,最終形成信息集。裝備試驗數據質量評估模型如表1 所示。

表1 裝備試驗數據質量評估模型
在裝備試驗過程中會產生和使用大量的試驗數據,不同的應用場景對評估指標要求不同,因此各項指標得分也會有一定差別,邀請多位該領域權威專家和數據使用者,采用專家打分法對每組數據集的各項指標進行綜合打分,結果如表2 所示。

表2 8組數據集的評估指標得分表
其中F表示綜合得分。將上述評分結果與相應指標的期望值進行對比,滿足期望值即為1,否則即為0,最終可以得到一張如表3 所示的裝備試驗數據質量評估信息表。
從表3 中可以看出,指標得分I1和I5相同,I2和I6相同,I7和I9相同,因此,三組中每一組只需保留一個,即保留指標I1、I2和I7,剔除指標I5、I6和I9,得到如表4 所示的評估約簡信息表。

表3 8組數據集的評估信息表

表4 8組數據集的評估簡約信息表
從表4 可得出,D={D1,D2,D3,D4,D5,D6,D7,D8},I0={I1,I2,I3,I4,I7,I8},則等價關系I1,I2,I3,I4,I7,I8有以下等價類:

通過不可分辨關系計算,則關系ind(I0)可以得到以下等價類:


根據上述結果可知,指標I1、I3和I8與I0是信息等價的,可簡化掉,因此得到了約簡后的指標集{I2,I4,I7}。通過粗糙集算法將初始的9 項指標約簡成3 項核心的評價指標。
當條件屬性比較多時,采用粗糙集算法得到的決策規則較為復雜,且評估結果與指標之間的關系通常并不直觀,因此,可采用BP 神經網絡對裝備試驗數據的質量進行預測評估。
采用通過約簡得到的指標集合和相應的原始數據表作為最新的學習樣本集,該學習樣本集中僅保留了影響質量評估結果的幾項核心指標。將原始數據集的數據質量評估得分表作為訓練樣本,對BP 神經網絡模型進行訓練。經過粗糙集的約簡,可以得到模型輸入數量N為3,輸出數量M為1,中間層神經元的數目經過對比2、3、5、7、9 后選取網絡泛化能力最佳的5 個。裝備試驗數據質量評估網絡模型如圖4 所示。

圖4 裝備試驗數據質量評估網絡模型
按照BP 神經網絡的一般設計原則,中間層神經元的傳遞函數采用S 型正切函數,輸出層神經元的傳遞函數采用S 型對數函數,并對其進行歸一化與反歸一化。簡化后的指標集{I2,I4,I7} 分別作為評估網絡的輸入,裝備試驗數據質量評估值F作為評估網絡的輸出。在模型訓練過程中,在正向傳播時,訓練樣本數據從網絡模型的輸入端{I2,I4,I7} 輸入,經過包含5 個神經元的中間層,得到輸出值F,將F與期望值進行比較,當誤差較大時,進行反向傳播,即將比較后得到的誤差從輸出層經中間層,反向傳導到輸入層,然后不斷調整各層的權重值,通過多次迭代計算,最終使輸出誤差達到理想目標0.01 以內,停止訓練,并得到最終訓練好的各層權值與完整的網絡模型。將模型用于該數據集的質量評估預測,就可以得出該數據集的預測綜合評估質量F,并與實際評估值進行對比,如圖5 所示。

圖5 預測評估結果與實際評估結果對比圖
由圖5 可知,通過粗糙集-神經網絡模型預測的數據質量結果與實際值曲線基本吻合,誤差很小,因此,可以采用此模型對該類型裝備試驗數據資源開展數據質量評估。針對不同類型的裝備試驗數據集,當添加了新的數據質量評估指標時,可以采用該方法對模型重新進行修正和訓練。
裝備試驗數據質量評估是對裝備試驗產生和使用的數據進行質量定量評估,有效提升數據質量可提高裝備試驗效率,提升裝備試驗數據潛在價值,具有重要的理論意義。文中在BP 神經網絡模型前端添加粗糙集算法,通過屬性約簡減少了BP 神經網絡評估模型中的評估指標和樣本數量,有效提高了評估效率,增強了裝備試驗數據質量評估的科學性和客觀性,且預測評估誤差較小。基于粗糙集-神經網絡模型的裝備試驗數據質量評估模型,有效結合了粗糙集和BP 神經網絡兩種算法的優勢,是裝備試驗數據質量評估的新嘗試。