薄 云,廖學軍,白洪波,白 宇
(1.航天工程大學研究生院,北京 101416;2.中國白城兵器試驗中心,吉林 白城 137001;3.航天工程大學航天保障系,北京 102206;4.國防大學聯合勤務學院,北京 100039)
武器裝備的試驗鑒定涉及大量指標考核。文獻[1]針對如何評價航天領域高科技成果,從技術性、社會性、經濟性3 個維度提出了成熟性、可替代性、實用性,勞動生產率貢獻度等18 個指標;文獻[2-6]針對如何評估多型無人機的作戰效能,從攻擊、突防、導航、態勢感知、完備性、準確性、連續性、時效性、相關性、共享度等維度提出了掛載量、精度系數、發現目標能力、雷達散射截面、信息接受能力等26、7、19、17、25 個指標??梢钥闯觯淇己酥笜司蓜澐譃閮深悺R皇嵌恐笜?,如雷達散射截面、定位時間、精度系數、掛載量等;二是定性指標,如工作可靠度、任務可執行度、成熟性等。定量指標的物理含義明確,基于已有數據可構建概率分布,從而客觀考核指標;而定性指標一般用于衡量主觀感受,物理含義并不明確,難以直接套用定量指標的考核方法。
作戰試驗[7-10]作為武器裝備試驗鑒定研究的熱點問題,現已形成一批理論成果,各軍兵也已基本完成構建所轄武器裝備的作戰試驗指標體系[11],下一步將加速推進體系中各類指標的考核科學化。考慮到我軍在長期的定型試驗鑒定實踐[12]中積累的大量定量指標考核理論與方法也基本適用于作戰試驗,但作戰試驗由于其鮮明的實戰化特點,需根據模擬作戰任務的完成程度和武器裝備對于任務的適應程度來判斷武器裝備是否達到指標要求[13],因此,作戰試驗勢必存在大量定性指標,而這些定性指標考核基本沒有定型試驗的經驗可供借鑒,故本文首先針對當前作戰試驗定性指標結論推斷存在的問題,提出了基于二分檢驗的推論框架;其次,鑒于樣本量估算對于試驗任務經濟性、科學性的重要影響,討論了定性類指標考核的樣本量估算方法;最后,演示了該推論框架及樣本量估算方法的有效性。
定性變量又稱分類變量,它是只能以有限取值或類別加以度量的變量,具體又分為二分變量、名義變量和定序變量[14]。二分變量只有含義完全相反的兩個取值;名義變量有有限個取值,彼此沒有先后、好壞的差別;定序變量有有限取值,但這些取值含有先后、好壞等差別。
當前,作戰試驗中的定性指標一般以類似“某型衛星通信系統在典型海事任務中的通話質量滿意度大于80%”的方式提出規定要求;以問卷調查的形式采集數據;以定義各種可能結果與特定數值的映射關系(如“非常不滿意-1”、“不滿意-2”、“基本滿意-3”、“滿意-4”、“非常滿意-5”),使定性的主觀感受具備某種定量特征;然后利用加權平均獲得指標綜合結果,如該結果的數值大于指標規定的數值,則認為該項指標考核通過。
由于這些試驗的結論是在近似實戰條件下由專業作戰人員“試用”武器裝備后得出的,因此,具備很高的可信度,但經分析仍可得到3 個方面的提高。
1)避免過度設定客觀事實。例如:實踐中一般以“1”、“2”、“3”、“4”、“5”作為滿意度從“非常不滿意”到“非常滿意”的得分,并用加權平均值作為最終的滿意度得分。但是很顯然,“非常滿意”的滿意程度未必是“非常不滿意”的滿意程度的5 倍,另外,滿意程度從“非常不滿意”到“不滿意”的跨度未必和“滿意”到“非常滿意”的跨度正好一致,于是其加權平均值也未必客觀反映滿意度。
2)體現試驗的隨機本質。很顯然,試驗是一個隨機抽樣過程[7],依據樣本得出的結果是隨機變量,那么很顯然,依據樣本的加權平均滿意度來推斷武器裝備的滿意度是否通過考核必然存在出錯概率。更為重要的是,當前依據加權平均值判斷指標是否合格的方法并未控制該出錯概率。
3)準確估算試驗的樣本量。以上通過加權值判斷指標是否通過考核的方式往往只能依據資源可承受水平來估算樣本量,未能充分利用其余的決策支持信息,在樣本量估算的科學化水平上還有很大的提升空間。
作戰試驗的定性指標大部分是以某種“度”的形式加以提出的,例如滿意度、適應度、共享度等??紤]到武器裝備的這些定性指標限定為只有“是”、“否”兩個選項,那么對于某一作戰人員來說,對其回答要么是肯定的,要么是否定的,只是“是”“否”選項的概率不一樣。設其回答“是”的概率為p,則回答“否”的比率為1-p。
由于在相近的武器裝備水平和軍事訓練水平下服役的作戰人員對于武器裝備的優劣具有大體近似的認識水平,所以雖然各作戰人員針對某項定性指標回答“是”的概率存在差異,但應該差異不大。因此,可以進一步假設對于擬列裝被試武器裝備的作戰部隊來說,其作戰人員對于某項定性指標回答“是”的概率都為p。更進一步,如果這些作戰部隊使用該被試裝備,并要求所有作戰人員對該定性指標作出評價,那么答案“是”在所有答案中的比率也為p。
可見,以比率的方式定義定性指標具有良好的邏輯自洽性。它很好地規避了以人為設定的多水平定義定性指標可能帶來的可信性問題,并且相對后者難以圓滿解釋加權平均結果的確切含義的情況而言,其結果的實際含義非常明確,對于作戰使用和裝備管理的指導性也更強。
為體現試驗的隨機抽樣本質,可參照如下的二分檢驗[14]過程。假設希望通過作戰試驗推斷被試武器裝備的滿意度是否大于80%,抽選了n 名參試作戰人員,抽樣所得數據y→=[y1,y2,…,yn]。其中:

也即在n 名參加作戰試驗的作戰人員中,給出“滿意”態度的人數總和s 服從參數為n 與p0的二項分布,記為s~b(n,p0)。其概率分布圖形如圖1所示。

圖1 二項分布概率分布示意圖
圖1 的陰影部分表示了所有s≥s0情況下的發生概率總和。它表達的含義是作戰人員總數為n,滿意度為p0的情況下,出現樣本y→n,以及比y→n更極端情況的概率:

如果P(i≥s0)非常小,則表示得出該概率的前提條件,即滿意度為p0(或者更?。┑慕Y論非??梢?,應當考慮接受其相反結論,即滿意度p>p0。這就是基于二分檢驗考核定性指標的基本原理。
可以看出,該過程反映了試驗的隨機本質,更為重要的是它可以明確給出“通過考核”的錯誤概率(即P(i≥s0))是多少。這種錯誤在統計學中被稱為第1 類錯誤,其發生概率的可接受水平被稱為顯著性水平,通常記作α[15]。與之相對的是第2 類錯誤,它是本應給出“通過考核”但卻認為指標不合格的錯誤,它的發生概率的補數稱為統計功效,通常記作(1-β)。其中,β 是第2 類錯誤的發生概率[15]。它們的關系如圖2 所示。

圖2 原假設、備擇假設、顯著性水平與統計功效的示意圖
2.3.1 估算的客觀準則
影響試驗樣本量的因素很多,比如資金消耗、日程安排、資源的可配置情況、以及試驗結論的可靠性等等,但最根本的影響因素還是試驗結論的可靠性。如前所述,顯著性水平α、統計功效(1-β)是控制兩類錯誤的重要工具。但實際工作中,常常忽略統計功效,甚至很多頂級刊物也無法避免[16-19]。如圖3 所示,對某一個特定的研究問題而言,所有正確的備擇假設占所有假設的比例分別為50 %和10 %時,通過假設檢驗找出正確結論的比例ppv(positive predictive value),會隨著統計功效的降低而迅速降低。

圖3 ppv 隨(1-β)變化的示意圖
在圖3 中,如果指標實際并未達標,其被正確識別的比例proppm用綠色色塊表示,被錯誤識別(即第1 類錯誤)的比例propnn用紅色色塊來表示;如果指標確實達標,其被正確識別的比例proppa用藍色色塊表示,被錯誤識別(即第2 類錯誤)的比例propna用灰色色塊表示。設真正達標的武器裝備的比例為:


可以看出,當propeff=0.5 時(上3 幅分圖的情況),若(1-β)分別為0.2、0.5 和0.8,ppv 則分別為0.80、0.91 和0.94;當propeff=0.1 時(下3 幅分圖的情況),若(1-β)分別為0.2、0.5 和0.8 時,ppv 則分別為0.31、0.53 和0.64。即得出真正正確結論的比例,會隨著統計功效的降低而迅速降低。由于武器裝備是否具備宣稱的創新成效直接關系到作戰人員的生命安危和戰爭的勝敗,而圖3 中,當propeff=0.1,(1-β)=0.2 時,ppv 僅為0.31,即在10 型通過作戰試驗的武器裝備中,大約只有3 型才真正具備宣稱的作戰效能和作戰適用性。這種結果顯然是災難性的。因此,在作戰試驗中,在確定顯著性水平以控制第1 類錯誤的基礎上,必須確保統計功效以控制第2 類錯誤。
2.3.2 估算的方法步驟
基于以上討論,作戰試驗依據二分檢驗考核定性指標的樣本量估算可按如下流程實施。
第1 步,由武器裝備的研制總要求得出定性指標的具體要求,構建假設檢驗;
第2 步,根據武器裝備的研制試驗或前期其他試驗,估計武器裝備該指標的實際水平;
第3 步,確定試驗期望達到的顯著性水平α 和統計功效(1-β);
第4 步,設樣本量n 為1;
第5 步,計算在前述設定的p0、pa、α 情況下的臨時統計功效(1-β)temp,并計算(1-β)temp和期望達到的(1-β)差值的絕對值Δ(1-β);
第6 步,令n=n+1,重復第5 步,直至Δ(1-β)最小。此時的n 即為滿足以上條件的樣本量。
假設研制總要求規定某型衛星通信終端通話質量的滿意度大于80%,則計算過程如下:
第1 步:定義p 為滿意度水平,構建假設檢驗H0:p≤p0=0.80,Ha:p≥p0=0.80;
第2 步:通過考察該型衛星通信終端的研制試驗、早期作戰評估、作戰評估的相關數據,估計pa的實際水平大約為0.91;
第3 步:設定假設檢驗的顯著性水平α=0.05,期望達到的統計功效(1-β)=0.80;
第4 步:設定試驗所需的樣本量n=1;
迭代第5 步與第6 步的運算:由已設定的α=0.05、期望達到的(1-β)=0.80、估計的pa=0.91,從n=1 開始,以1 為步長遞增n,計算在n 取各值情況下的Δ(1-β)。迭代運算結果如圖4 所示。通過比較,取使Δ(1-β)達到最小數值0.002 7 的n 值,即72,作為待求的樣本量。在此樣本量n 條件下H0、Ha、α、(1-β)的關系如圖5 所示。

圖4 迭代求取滿足α 和(1-β)的樣本量n 的過程示意圖

圖5 在已求取樣本量n 情況下的二分檢驗示意圖
首先設定仿真參數為n= 72、α=0.05、p0=0.80、pa=0.91;
其次以50 為步長,設定仿真次數tsim為50 至10 000;
接著在tsim的每次仿真中生成100 組長度為n=72、滿意度pa=0.91 的(“滿意”、“不滿意”)二分隨機向量y→sim,計算y→sim中結果為“滿意”的總數ssim,并計算在以n=72、p0=0.80 為參數的二項分布中出現比ssim及比ssim更極端的發生概率psim,如果psim<α,則表示模擬的樣本數據y→sim支持Ha;記該組100 個y→sim支持的Ha總數為ty(a),ty(a)/100 即為tsim的每次仿真中算得的經驗統計功效(1-β)exp(y);當tsim次仿真均做完之后,以tsim個(1-β)exp(y)的平均數(1-β)exp作為與tsim相對應的經驗統計功效;
最后,當完成所有按照tsim所做的仿真之后,統計與tsim相對應的(1-β)exp,形成如圖6 所示的最終結果。
通過觀察圖6 可以看出,經驗統計功效(1-β)exp大致以0.803 為中心,在(0.796,0.808)的范圍內上下波動,并隨著tsim的增大而迅速收斂值0.803。由此可證明,本文給出的基于二分檢驗考核定性數據及其樣本量的估算方法可有效滿足作戰試驗控制兩類錯誤風險的客觀需求。

圖6 算法有效性驗證示意圖
通過圖4 可以看出,在求取滿足α 和(1-β)需求的樣本量n 的過程中,Δ(1-β)在下降至最小值再增大的過程波動非常劇烈,而不是一個平滑變化的過程。這主要是由于定性數據的精確檢驗方法,無論是原假設,還是被擇假設,其分布率均為離散函數,所以在求取樣本量的過程中計算Δ(1-β)可能會產生如圖4 所示的震蕩過程。為了應對這一情況,建議在實踐中如果出現多個備選樣本量n 使得Δ(1-β)達到最低點的情況,選擇這幾個備選n 中選擇處于中間位置的n。
圖7 給出了通過以上方法求取的樣本量n 的變化趨勢。其中,實線趨勢曲線為p0=0.7,pa取各值情況下樣本量n 的變化趨勢;虛線趨勢曲線為pa=0.7,p0取各值情況下樣本量n 的變化趨勢。可以看出,無論固定了p0或pa的任何一方,在另一方作為變量的情況下,g=pa-p0越大,則所需的樣本量越小。g 在統計學中被稱作效應量[20],它反映了備擇假設的顯著性程度。

圖7 樣本量n 變動趨勢示意圖
由于作戰試驗前無法知道g 的真實值,只能利用研制試驗、早期作戰評估、作戰評估的相關數據,或者在驗前先小規模組織相關測試,采集相關數據,從而對g 進行估計。g 估計得越準確,則樣本量估算得越準確,相應試驗資源的綜合效益也越高。
本文提出的方法對于作戰試驗中定性數據處理及其樣本量估算的大部分情形來說是足夠適用的。雖然這些方法是針對單個試驗樣本考察其是否達到研制總要求規定的特定指標,但是稍加變形,也可以處理被試武器裝備相對于基線作戰力量的定性數據處理。
另外,針對一些特殊的定性數據,需要使用一些特殊的數據處理方法,例如定序數據的相關處理方法。這些問題的假設檢驗過程還比較直觀,但其概率分布函數或分布律非常復雜,難以精確估算樣本量,必要時需要使用蒙特卡洛仿真求解。
通過分析當前作戰試驗的指標考核現狀,本文指出它可以在避免過度設定事實、反映試驗的隨機本質和樣本量計算3 個方面得到科學化水平的提升。以定性指標考核為例,本文研究了引入二分檢驗和基于統計功效的樣本量估算來實現提升的途徑。通過某型衛星通信終端通話質量滿意度考核的具體算例,本文演示了該途徑實現以上3 方面提升的實際效果。最后,針對該實現途徑在實際考核中可能會出現的一些特殊情形,本文討論了相應的處置辦法,從而為后續作戰試驗的相關實踐提供了有益參考。