王 鈺,劉 磊
(北京科東電力控制系統有限責任公司,北京 100085)
目前,網構軟件測試數據具有數量龐大、種類多、結構復雜等問題[1]。傳統的數據分類方法對相近數據不能準確分類,給數據的搜索和查詢帶來困擾,將海量的網構軟件測試數據進行精準劃分成為當前數據管理的一大難題[2-3]。文中通過構建基于特征擴展的網構軟件測試數據分類模型,明確模型的工作流程,采用特征擴展算法生成數據特征向量空間,通過計算數據的權值和表達能力準確分類,能夠處理相近數據,根據數據的特征量進行準確分類,有助于加強對數據的管理且對數據的處理速度較快,適合未來互聯網的發展。
基于特征擴展的網構軟件測試數據分類模型如圖1 所示。

圖1 網構軟件測試數據分類模型
從圖1 可以看出,對于網構軟件測試數據,其特征分類包括以下步驟:
1)對于輸入網構軟件測試數據,提取其特征點,得到的數據特征點集合為F。
2)根據特征擴展算法,利用稀疏分解算法稀疏網構軟件測試數據,得到的稀疏數據集合為D,集合F和集合D的關系為:F=nD。
3)聚合所有的稀疏數據,生成數據集W,則W=Pooling(F)。
4)采用平方根聚合方法對數據進行聚合處理,聚合計算的公式為:

其 中,Wi表示稀疏數據W的第i個元素,m為輸入網構軟件測試數據中的特征點總數;Fi表示稀疏數據Wi在特征點集合F中的第i個特征點,在對所有稀疏數據進行聚合后,得到的數據稀疏向量表示為:

根據稀疏數據的表達進行網構軟件測試數據的分類,采用概念樹、權值計算和表達計算,表現網構軟件測試數據的特征,根據數據特征進行分類和保存[4-5]。
5)將保存的網構軟件測試數據進行編號,方便提取和查詢。
基于特征擴展的網構軟件測試數據分類模型具有以下優點:首先模型將網構軟件測試數據特征映射到向量空間,有利于特征擴展和表現;其次,通過精準計算,能夠減少分類誤差,且計算速度較快,提升了數據關聯度處理能力;最后,數據分類后在各個數據庫上標注類別和編號,有利于后期的數據調取和查詢[6-7]。
輸入:網構軟件測試數據,生成待測數據文件。
輸出:網構軟件測試數據特征擴展之后的特征向量空間[8-10]。
1)對于待測網構軟件測試數據中的任一個特征項,計算特征項的最小置信度和最小支持度,計算公式如式(3)和式(4)所示。

式中,f表示總體真值;v表示標準真值;N表示待測網構軟件測試數據總數量;
2)將具有最小執行度和最小支持度的特征項生成查詢特征共現集,將查詢特征共現集中的網構軟件測試數據定義為規則特征項,計算每個項的規則度,規則度H的計算方式如式(5)所示。

3)若H值大于設置的規則度閾值,則可認為該規則特征項為規則項;若在查詢特征共現集中存在唯一規則項,將執行步驟4);若存在兩個或兩個以上規則項,將執行步驟5);
4)將唯一規則項列入特征空間集中;
5)匹配網構軟件測試數據特征;
6)特征空間集中的數據生成特征向量空間,繼續計算下一組網構軟件測試數據[11-13]。
經過特征擴展后的網構軟件測試數據特征向量存在較多的干擾因素,由于網構軟件測試數據之間的相似度,影響了網構軟件測試數據的特征表達能力,數據分析能夠提升數據的表達能力,更利于實現數據分類和查詢[14-15]。
首先,概念樹通過數據的屬性分析進行其數據的概念描述,定義網構軟件測試數據的屬性權值公式如式(6)所示。

其中,n為該數據在概念樹中的位置;I為概念樹的編號總集;Deep表示該數據在概念樹中的重要性;在公式中加1 的目的在于調節網構軟件測試數據的權值,使權值始終為正,避免權值為負導致的復雜計算[16]。
由于數據具有相似性,相似數據間差別不大,為對數據進行精準分類,在計算過網構軟件測試數據的權值后,對其表達能力進行計算,如式(7)所示:

根據網構軟件測試數據的表達能力,將其特征值充分表達,根據表達特征值的不同進行合理分類。
文中實驗研究利用構建的網構軟件平臺作為實驗研究中心,以網構系統為關鍵計算單元進行平臺開發,集成符合FIPA 標準的網構測試數據分類空間,對該空間進行自主性開發與自適應演化檢測。采用Spring 平臺,支持實驗中的分類模型自適應設計操作,同時供給模型構建圖形化界面、構架代碼研發、分類模型管理等工具,在模型構建的過程中時刻連接外部接口API。構建的實驗檢測平臺框架如圖2 所示。

圖2 實驗檢測平臺框架圖
實驗過程中的操作平臺分為兩個層次:實驗運行層與構建結果檢驗層。平臺內部包含AMS 部件,負責內部平臺實驗數據信息間的通訊、數據分類信息管理以及平臺運轉生命周期的管理。
在實驗組集中引入特征項共現,有效擴展測試數據的測試特征。獲得深層模型的測試含義,利用數據共現模型對網構軟件測試數據進行平臺共享操作,將共享功能與實驗檢測平臺的網絡任務相連。在大規模的數據實驗收集中,對于兩個經常出現的測試指標,應將其轉錄至統一平臺窗口單元中等待檢測處理。當經過檢測處理后的單元窗口產生數據共組現象時,則表示被檢測的測試指標在意義上有著較為密切的關聯。共現概率越高,表明數據間的相互關聯系數越高。
依照關聯程度對經過分類模型分類后的數據相似度進行對比,并構建實驗對比圖。將數據共現模型引入分類特征擴展中,挖掘訓練集特征組合與樣本集特征組合間的關系。利用FP 算法計算特征項組合共現數值,將特征項組合看作事務項,測試數據看作事務,可以在給定的最小支撐度閾值與置信度閾值之下找出組合的特征項數據間的關聯關系原則,關聯關系下的關系原則可表示特征項數據的共現程度,由此獲取相應的分類程度。分類數據相似度對比如圖3 所示。

圖3 分類數據相似度對比圖
根據圖3,文中基于特征擴展的網構軟件測試數據分類模型構建方法的分類數據相似度明顯優于傳統方法的分類數據相似度。由于文中構建方法引用DF 部件在測試數據內部調節網構軟件的組件形式,結合EBDI 結構綁定分類模型關系,根據模型實體測試信念以及動作更改信念組成分類集合與動作集合,時刻掌握網構軟件的調整狀態。在算法操作伊始,轉變選擇函數操作意圖,及時反映測試數據的測試環境,排除測試阻礙因素,具有良好的數據共現數值。隨時調整測試指標,將標準指標與測試數據相融合,在特征擴展的環境中分析擴展特征項與數據集合間的關系,提高對關系的管理力度。實施動態演化運行機制,給出一致性操作原則與分類管理原則,固定分類模型的構建步驟,防止步驟錯亂導致模型構建失誤。由此,獲取嚴謹科學的模型構建數據,提升其最終測試的分類相似度。
在分析所構建模型的分類相似度后,研究文中方法的召回率。在實驗空間中輸入特征共現集數值,設置關聯規則抽取閾值,并管理閾值的設置范圍,控制閾值數值處于10~100 之間。在經過測試數據特征擴展后,對信息進行分類并將其輸出至特征向量空間中。在測試數據集中的任意一個特征項組合中,若在實驗查詢的過程中產生共現集,則表示該過程存在唯一的一個規則項信息。
此時,提升設定的閾值參數數值,直至其數值大于標準閾值參數數值,執行關聯規則右部的特征項信息。在接收控制檢驗的實驗空間中配置SVM分類器,同時提升分類器的操作效率,防止因設備改變而產生的數據分類失敗狀況。交叉驗證處于不同位置空間測試數據分類模型的運行狀態,當運行狀態的動力供給量較小時,將分類模式調整為低級模式,當運行狀態的動力供給量較大時,將分類模式調整為高級模式。由于測試的數據設計網構軟件的內部系統運行操作,為此,在對測試數據進行調整后方可執行檢測指令。
在實現以上操作后,對分類得出的召回率進行對比,得到召回率對比如表1~3 所示。

表1 文中方法召回率

表2 基于局部語義概念表示的方法召回率

表3 基于Agent方法的召回率
從表中可以看出,文中基于特征擴展的網構軟件測試數據分類模型構建方法召回率指標均高于其他兩種模型構建方法,表示文中方法的分類性能更高,有利于分類模型的構建。文中在分類模型構建的同時調節算法分析狀態,動態綁定模型信息,具有良好的模型掌控性能,可在產生分類準則的前提下執行分類指令,提升整體分類標準,獲取更高的分類結果。
文中構建的基于特征擴展的網構軟件測試數據分類模型能夠有效解決數據的分類問題,不僅為數據的提取和查詢,而且為其他領域數據的管理提供了借鑒方法,拓寬了特征擴展的應用領域,更促進了我國大數據技術的發展。實驗結果表明,文中基于特征擴展的網構軟件測試數據分類模型構建方法可及時調節分類模型信息,利用特征項尋找共現指標,由此獲取較優的分類效果,具有良好的發展前景。