基于加權估計的軟件實驗室能力比對測試結果評價

2015-02-21 06:34:15王勇利王艷軍張海軍

實驗室研究與探索 2015年3期

關鍵詞：實驗室深度評價

王勇利，王艷軍，張海軍

(中國人民解放軍91404部隊,河北秦皇島 066001)

基于加權估計的軟件實驗室能力比對測試結果評價

王勇利，王艷軍，張海軍

(中國人民解放軍91404部隊,河北秦皇島 066001)

為實現對軟件測評實驗室能力比對測試結果的定量分析與評價，本文在融合參加能力比對測試各方所發現軟件缺陷的基礎上，以測試廣度和測試深度作為評價要素，選取正態分布作為趨勢估計曲線，通過調整諸權重及系數、歸一化趨勢估計曲線幅度等手段，統一評價基準，構建出一種能力比對測試結果評價體系模型。還對此模型組織實施、關鍵過程實現手段等方面進行詳細闡述。該評價模型可直接用于對軟件測評實驗室能力比對測試結果的定量分析與評價，對于構建新的定量評價體系也具有較強的借鑒意義。

軟件測評；能力比對；定量評價；等價類劃分

0 引言

能力測試是用來考核實驗室的測試、校準或鑒定所能達到的能力和水平所組織的實驗室間的比對測試[1]，軟件測試實驗室應定期組織或參加實驗室間的比對[2]，組織和參加實驗室間比對或能力測試是軟件測評實驗室核查測試或鑒定結果的有效性、確保測評工作質量的主要方法，也是確認方法性能的技術手段之一[3]。對于重要的被測軟件，可采用不同測試機構或多個項目組進行平行測試比對，以保證測試結果的質量[4]；由實驗室在其自行組織的能力測試及比對，不僅是實驗室對內部人員技術能力進行考核、評比的一種有效途徑，其結果也是實驗室自身能力評審的重要內容。通過能力比對測試，不僅能夠評價實驗室的檢測能力，還可從統計數據中分析出準確度的影響因素，是控制檢測質量的有效措施[5]。

軟件缺陷分布呈現不確定、不易窮舉等特性，因此對于用于能力比對的測試樣例，無法確保其預設缺陷域(指由組織者在測試樣例中預先埋置的軟件缺陷的集合)總能完全覆蓋該樣例的缺陷全集域(測試樣例軟件客觀存在所有缺陷的集合)。簡單地統計各測試組測試結果在預設缺陷域中的擊中數或命中概率，并不能客觀、全面地反映該測試組的測試水平，以此為依據對能力比對活動進行的評價也缺乏相應的合理性、公正性。同樣，由于不能保證在任何情況下存在某個測試組所發現的缺陷域能夠完全涵蓋其他各測試組所發現的缺陷域、不同嚴重等級的軟件缺陷所反映的測試成效和水平也存在差異，故以各測試組所發現缺陷總數為依據對實驗室能力比對活動進行評價，缺乏共有的評比基準，無法保證評價結果的有效性、合理性。

學科與機構評價的一般方法是選取或構建出某一指標體系作為評價模型，以此為基礎分別計算出每個被評價對象的得分，之后按照得分進行排序分層[6]。本文選取能夠反映測試技術能力的主要指標作為評價要素，提出一種基于加權賦值、趨勢估計擬合的軟件測評實驗室能力比對測試結果評價模型——“加權估計法”，實現能力比對測試結果的定量分析和評價。

1 評價要素選取

通過比較Z比分數的大小實現對實驗室的能力評定[7]是比較常見的做法，然而這種穩健的統計技術僅適用于單一要素下的評定，無法針對多要素進行綜合評價[5]。在現實研究中，為了客觀全面地分析問題，常要記錄多個指標并考慮眾多的影響因素，這樣的數據雖然可以提供豐富的信息，但同時使得數據分析工作更趨復雜化[8]。評價模型中評價要素的選取規模應同時兼顧多維化和簡單性的要求，在滿足評價需求的前提下，盡可能地對評價要素空間進行降維處理。

對于軟件測評實驗室承擔的軟件測試項目，過程度量覆蓋了測試過程的有效性、效率和質量所需的各個方面，包括生產率、測試用例有效性、測試廣度、測試深度、測試用例通過數、測試用例失敗數、不符合項數等[9]。能力比對測試主要是對各實驗室(測試組)技術能力的考核，因此可僅選取與測試技術能力相關的主要度量特性作為構建評價模型的要素因子，而項目管理、實施效率等不太相關的度量特性則可加以忽略。上述諸測試過程度量中，測試廣度用于衡量有多少測試需求已經被測試(測試廣度理論上應該達到100%)，測試深度用于衡量被測試覆蓋的基本路徑占被測軟件中基本路徑總數的百分比[9]，綜合兩者即反映出測試工作的整體有效性，可作為“加權估計法”評價模型的要素空間。

文獻[9]從測試需求角度闡述的測試廣度、測試深度一般性定義，適用于對測試有效性的常規性評價。能力比對測試重點關注各測試方之間的相對測試能力，并不關注某個或全部測試方測試工作的絕對有效性。考慮到軟件測試的直接目的是發現軟件中存在的缺陷[10]，故可從測試所發現的軟件缺陷域重新定義測試廣度和測試深度相對含義。測試廣度與測試深度這種反向定義，適用于基于測試結果的定量評價活動。

2 相關定義

定義1 問題劃分：將所有的軟件缺陷進行等價類劃分[11]后得到的輸出。

定義2 問題劃分的類型：分為驗證性問題劃分和邏輯性問題劃分2種。問題劃分的類型是利用測試結果進行測試深度分析的基礎。

問題劃分的類型的確立標準可根據測試項目具體特性進行制定。比如，可以根據發現缺陷的測試設計的復雜性來進行分類：驗證性問題劃分可以是對某一類不需要依靠復雜邏輯設計或流程設計就能發現的軟件缺陷的抽象，邏輯性問題劃分可以是對某一類需要利用復雜邏輯或流程設計才能發現的軟件缺陷的抽象；也可以根據發現缺陷的測試設計(用例)所涵蓋的功能點數量進行分類：驗證性問題劃分的衡量標準是發現缺陷的測試設計只涵蓋1個功能點，邏輯性問題劃分的衡量標準是發現缺陷的測試設計涵蓋2個或2個以上的功能點。

定義3 得分S：利用“加權估計法”進行測試結果評價所得到的最終定量結果，得分S=測試廣度指標E+測試深度指標1D1+測試深度指標2D2。

定義4 要素權重：包含廣度權重WE、深度權重1WD1、深度權重2WD2。各要素權重決定了測試廣度、測試深度對最終評價結果S的貢獻程度。

定義5 測試廣度指標E：某測試組所覆蓋的問題劃分數占總問題劃分數的比重，反映了測試活動的廣度特性。

定義6 測試深度指標1D1：某測試組所覆蓋的邏輯性問題劃分占全體問題劃分的加權比重。

定義7 解算系數：用于計算D1而為驗證性問題劃分、邏輯性問題劃分所設置的權值，體現了驗證性問題劃分、邏輯性問題劃分對最終得分的貢獻程度。

定義8 測試深度指標2D2：設某測試組邏輯性問題劃分所覆蓋的缺陷或用例的數量占該測試組全部缺陷或用例數量的比重為k，測試深度指標2D2為k在趨勢估計函數(曲線)中的取值。D2是對某個具體測試方測試設計合理性、均衡性的估計和評價，是對D1的修正，反映了測試深度的合理性。

定義9 基礎函數：用于構建趨勢估計函數(曲線)，基礎函數應具有明確的統計特性和意義，能夠反映測試深度比重合理性隨測試結果中各種問題劃分比重的估計趨勢。

定義10 趨勢估計函數(曲線)：對選取的基礎函數進行幅度歸一化處理后，即為對k的趨勢估計函數(曲線)，其反映了某一測試組邏輯性問題劃分與驗證性問題劃分比重的合理性。幅度歸一化處理是指：將基礎函數的定義域、值域均調整到[0，1]區間。

3 “加權估計法”評價模型概述

“加權估計法”評價模型是用于對各測試方能力比對測試結果進行定量分析的評價體系，其主要思想是：在將所有測試組所提交的測試缺陷進行融合整理后，通過選取恰當的要素權重、解算系數、趨勢估計函數(曲線)進行微調，構造出“加權估計法”評價模型，在實現一致的評價基準基礎上，進行評估計算、量化打分，最終為每個測試組都計算出一個得分，實現對各測試組測試結果的定量評價。

4 “加權估計法”評價模型算法

通過設置各個要素權重控制得分S所采用的分制，本文中模型采用百分制，各要素權重為：E的權重WE=40，D1的權重WD1=40，D2的權重WD2=20。設共有t個測試組，利用“加權估計法”對第i個測試組的測試工作進行分析評價后，所得到的結果為得分Si(0≤S≤100,i∈(1,2，…，t))，則“加權估計法”模型為：

(1)

其中：Ei為第i個測試組的測試廣度指標，反映該測試組的廣度特性；D1i為第i個測試組的測試深度指標1；D2i為第i個測試組的測試深度指標2；D1i+D2i反映該測試組測試的深度特性。

4.1 測試廣度指標Ei

設在對t個測試組所發現的測試問題進行匯總歸納后，得到的問題劃分的數量為N個，某一測試組所覆蓋的問題劃分數量為Ni(0≤Ni≤N,i∈(1,2，…，t))，則該項目組的測試廣度指標Ei為：

Ei=WE·Ni/N=40Ni/N

(2)

4.2 測試深度指標1D1i

對所有問題劃分按照其測試深度進行分類，并為其賦予不同的解算系數，此處設：驗證性問題劃分的解算系數為1.5；邏輯性問題劃分的解算系數為2。

設所有的N個問題劃分中，驗證性問題劃分的個數為nv，邏輯性問題劃分的個數為nl，則nv+nl=N，令：Be=1.5nv+2nl。

設第i個測試組所覆蓋的Ni個問題劃分中，驗證性問題劃分的數量為nvi，邏輯性問題劃分的數量為nli，則nvi+nli=Ni，測試深度指標1D1i為：

(3)

4.3 構造基礎函數

正態分布表達了隨機變量(數據)與其出現的頻數之間的關系[12]，自然科學、社會現象等領域的許多大樣本統計特性中廣泛呈現出正態分布的趨勢，具有較強的代表性和典型性，其統計特性與測試深度比重合理性的趨勢變化相似。數學中的黃金分割法按照長段占整體的0.618將整體劃分為兩部分，短段比長段、長段比整體均等于0.618，體現出和諧而嚴格的比例特性，被認為是公認的美學定律[13]，其在建筑學、藝術、自然科學等領域中應用廣泛，著名數學家華羅庚在“優選法”就提出“0.618法”以快速獲取試驗結果的最佳方案[14]，在數學上現已推導驗證了在不考慮使用對分法的情況下黃金分割法為最佳的結論[15]。“加權估計法”模型可選擇“黃金分割點”作為測試深度比重合理性的拐點，在正態分布函數的基礎上擬合出基礎函數。

4.4 測試深度指標2D2i

設第i個測試組的nvi個驗證性問題劃分所涵蓋的測試用例數為Cvi，其nli個邏輯性問題劃分所覆蓋的測試用例數為Cli，則該測試組所發現問題對應的用例總數為Cvi+Cli，邏輯性問題所對應的測試用例占所有測試用例的比重為ki=Cli/(Cvi+Cli)。

選取正態分布曲線

第i個測試組的測試深度指標2D2i為：

(4)

4.5 得分Si

由式(1)得，第i個測試組的最終得分Si為：

4.6 比對分析

各測試組的最終得分Si是對每個測試組測試工作的整體定量評價，其分值的高低在某種程度上反映了該測試組測試工作質量的高低：得分越高的測試組，其測試工作相對更充分、有效。

5 組織實施

5.1 工作流程

“加權估計法”的主要實施流程可分為：匯總整理、模型調整、評價計算3個階段。

(1) 匯總整理。將所有測試組所發現的軟件缺陷匯總后，對每個問題逐個分析，確定問題劃分、確定每個軟件缺陷所屬的問題劃分、確定各個問題劃分的類型，統計各組所覆蓋的問題劃分、各組所覆蓋的每個問題劃分所對應的測試用例數(或缺陷數)，最終得到結果評價所需的統計數據。

(2) 模型調整。通過調整要素權重、解算系數、基礎函數、趨勢估計函數(曲線)，對“加權估計法”模型進行微調，最終確定評價模型。

(3) 評價計算。入統計數據到已確定的評價模型，實現對各測試組測試結果的評價解算，得到定量評價結果。

具體實施過程如圖2所示。

5.2 完善措施

“加權估計法”的實施過程不僅僅是數據統計、分析建模等技術上的實現，還需要考評組、各個測試組的有效配合和相互協調。為了保證評價模型的合理性，最大程度地緩解人為主觀因素對最終考評模型的影響，具體實施過程中可采取以下完善措施：

(1) 各測試組均選派組內人員參加考評組，通過將所有缺陷匯總打亂的方式，在屏蔽問題發現者的前提下，討論問題劃分的確立、確定各個軟件缺陷所屬的問題劃分、確定各個問題劃分的類型，以確保數據融合處理的準確性和公正性；

(2) 要素權重、解算系數、基礎函數以及趨勢估計函數(曲線)的確定和構建可以請所有測試組參加，以確保最終確定的評價模型的公正性和受認可度。

(3) 模型建立后，應告知相關利益方(包括各測試組、組織方等)，在得到所有相關利益方的認可后，再將統計數據(包括問題劃分、各個問題劃分的類型、各組所覆蓋的問題劃分、各組每個問題劃分所對應的測試用例數或缺陷數等)輸入模型進行解算，得出最終評價結果。

(4) 評價模型確立后，禁止隨意修改。如確需變動模型，必須同樣得到各相關利益方的認可，其過程應遵循“共同構建、全員發布、認可后再使用”的原則。

(5) 為了確保問題劃分的順利實施，在能力比對測試實施前，組織者可以推薦所有測試組在其所提交的“軟件問題報告單”或等效文檔中遵循“一單一缺陷”的原則。

6 關鍵過程的實現手段

6.1 確定問題劃分

問題劃分確立的基本過程是：匯總各組所提交的軟件缺陷后，考評組逐個分析軟件缺陷，利用等價類劃分的方法，確定是否新建問題劃分或將軟件缺陷劃入到已有的問題劃分中去，如圖3所示。

6.2 評價計算

“評價計算”是按照模型算法求解各測試組的廣度指標Ei、深度指標1D1i、深度指標2D2i以及各組定量評價結果Si的過程，可以利用Excel等報表工具的計算功能，快速構建模型解算報表(如圖4所示)，相比采用Visual C++、C#等高級編程語言編寫專用的解算程序，這種方式更加快捷、有效[16]，有利于實驗室能力比對工作的靈活開展。

圖4 利用Excel實現評價計算

7 結語

“加權估計法”依托橫向融合測試結果、構造統一評比基準等手段，對各個測試組測試結果進行定量分析，實現能力比對測試的結果量化考核，為能力比對測試活動中對各測試組(測評實驗室)的最終整體評價提供了重要的參考依據。該模型具有良好的操控性和靈活性，考評組可利用要素權重、解算系數、趨勢估計函數(曲線)等多種因子實現對模型的微調和定制，最大程度地適應具體的能力比對測試場景。

[1] GJB 2715A-2009《計量通用術語》[S].2009.

[2] 中國合格評定國家認可委員會．能力驗證規則[S].2006.

[3] GJB 2725A-2001《測試實驗室和校準實驗室通用要求》[S].2001.

[4] GJB 2725A-2001附加指南《軟件測評實驗室測評過程和技術能力要求》[S].2007.

[5] 孫彩玲,張永祥,田紀春.基于主成分分析的實驗室比對中檢測能力的綜合評價[J].實驗室科學,2012，15(2):118-121.

[6] 黃水清,張俊,閻素蘭.黃金分割法在學科及機構評價中的應用[J].圖書情報工作,2012,56(22):33-36,41.

[7] 中國合格評定國家認可委員會．能力驗證結果的統計處理和能力評價指南[S]．2006.

[8] 富伯亭，楊海燕.主成分分析在實際中應用的探索[J].山西廣播電視大學學報，2010(1):45-46．

[9] 梁成才.軟件測評實驗室軟件測試項目的度量研究[J].計算機工程，2005，31(23):90-92.

[10] 胡琨,劉浩,劉濤.初議軟件測試[J].科技廣場,2008(5):241-242.

[11] 范明紅,浦云明,汪志華.等價類測試與劃分研究[J].計算機技術與發展,2009,19(7):62-65.

[12] 辛秀東.正態分布統計技術在線纜質量控制中的應用[J].電線電纜,2005(5):35-37.

[13] 邱均平,趙蓉英.世界一流大學及學科競爭力評價的意義、理念與實踐[J].評價與管理,2007,2(5):33-38.

[14] 邱均平,楊瑞仙.2009年世界一流大學與科研機構學科競爭力評價的做法、特色與結果分析[J].評價與管理,2009,7(2):19-28.

[15] 邱均平,楊瑞仙.基于ESI數據庫的材料科學領域文獻計量分析研究[J].情報科學,2010,28(8):1121-1126.

[16] 黃宇.Excel電子表格在電氣調試中的應用[J].煤炭技術,2009,28(8):48-49.

The Weight and Evaluation Model for Software Testing Ability Comparison among Software Testing Laboratories

WANGYong-li,WANGYan-Jun,ZHANGHai-Jun

(NSTC, Qinhuangdao 066001, China)

In the testing ability comparative test for software testing laboratories, it is hard to estimate the results of every laboratory quantitatively. To solve the intractable conundrum, this paper advances the “Weight and Evaluation Model” (the WE model), an evaluating model for software testing ability comparison, based on weighting evaluation, curve fitting and trending. The WE model takes the extent and depth of every software testing activities synthetically and synchronously, and can evaluate each lab's testing results quantitatively according to the same criteria, This paper also indicates the crucial actualizing means and method for organizing and actualizing the WE model.

software testing; ability comparative test; quantitative estimate; equivalent compartmentalization

2014-05-18

王勇利(1982-)，男，安徽巢湖人，碩士，工程師，軟件測試人員，研究方向為軟件測試及其工程化。

Tel．：15233011029；E-mail：lhxl999@163.com

TP 311.5

1006-7167(2015)03-0246-05

基于加權估計的軟件實驗室能力比對測試結果評價

0 引 言

1 評價要素選取

2 相關定義

3 “加權估計法”評價模型概述

4 “加權估計法”評價模型算法

5 組織實施

6 關鍵過程的實現手段

7 結 語

0 引言

7 結語