卜先錦 毛騰蛟 黃其旺
(軍事科學院 戰略評估咨詢中心,北京100091)
“客觀、獨立、科學、公正”是評估的靈魂,軍事評估也不例外。在實際工作中,評估結果往往取決于主觀和客觀數據,其中主觀數據來源于專家,導致評估結果的公正性、可信度易受質疑。公正是公平的基礎,美國學者阿羅提出了“不可能定理”[1],證明了在兩條公理和五個假設條件下,找不到一個公平的社會福利函數,表明公平的社會是不存在的。在評估實踐中,如何立足于現有客觀條件,提高評估結果的可信度,保證評估結果的公正、可信,成為評估的難題。隨著數據科學的發展,基于數據統計的因果推斷研究,為評估結果的自我質疑、自我解剖、自我說明提供了可能的解釋方法路徑。
因果推斷理論研究,基于數理統計,目前主要有兩大學派:一是魯賓學派,誕生于20 世紀80年代,魯賓在學者內曼因果模型的基礎上,提出了魯賓模型[2,3](Rubin Casual Model,RCM),度量總體平均因果效應,該模型基于可忽略性假定,實現了從隨機對照實驗到觀察性實驗的轉變,目前廣泛運用于社會、經濟、政策以及醫療等領域。二是珀爾學派[4,5],誕生于20 世紀90 年代,美國學者珀爾等人,結合經濟領域的結構方程模型(Structure Equation Model,SEM)和魯賓模型,基于貝葉斯網絡,提出了概率推理和因果分析框架下的結構因果模型[6](Structure Causal Model,SCM),該模型采用圖形化方式推斷和展示變量之間的因果關系,簡便易懂,學界認可度較高,但由于變量間的因果關系發現仍然基于人的經驗判斷,導致混淆變量難以區分。近年來,隨著人工智能技術的發展,智能算法的不可解釋性成為強人工智能不能實現的瓶頸問題,珀爾提出了用因果科學的理論方法,啟發改進機器學習算法,導致因果熱再度掀起[7,8]。2019 年,軍事科學院楊學軍院士向全院科研人員推薦了珀爾的著作《為什么》一書,提出了軍事評估要用“因果語言”說話的要求。他認為:評估的首要任務是用數據、模型和結論來支撐和服務決策,簡單的票決制無法確保評估的公正性和可信度,只有基于因果推斷的方法和模型,才能做到評估過程和結果的可推理、可預測、可解釋和可交流。自此,開展因果推斷方法研究,助力評估結果的解釋,成為軍事評估理論創新的又一引點和熱點,課題組也開展相關研究,取得階段性成果[9]。
論文針對還原論方法得出的評估結果公正性和可信度問題,通過解剖評估過程,分析評估流程和影響評估結果的關鍵因素,采用正交實驗,基于獲取實驗觀測數據,構建潛在結果模型,并對影響評估結果的敏感因素、偏差及原因進行分析,最后比較了潛在結果與實際評估結果,并進行合理性解釋。
在軍事評估中,無論是簡單系統還是復雜系統,目前主流方法為還原論和系統論或者兩者的結合。其一般過程:給出評估對象及問題,確定評估專家,分析影響因素,確定打分規則,確定評估指標和權重,選擇集結模型。如圖1 所示。

圖1 評估一般流程示意圖
這里采集的數據,一是評估指標屬性數據,反映了評估對象的客觀信息;二是專家打分數據,反映了評價評估對象的主觀信息。此外,由于屬性數據和指標數據難以直接融合,需要對數據進行篩選、分析、歸一化處理,再集結計算。
影響評估結果的因素很多,其中關鍵因素主要包括評估專家、評估指標體系及權重、專家打分集結規則,以及綜合評價模型。
評估專家是評估者,其主觀價值判斷直接影響評估結果,因此,選擇專家時,既要考慮專家對評估對象所在領域的熟悉程度,也要考慮他們對評估流程和方法的掌握情況。由于專家自身經驗、學識、認知水平、專業領域的不同,評估同樣情境下的同一對象,可能會產生不同的結果,尤其是當判斷偏差較大時,還會出現顛覆性結果,這時可通過增加評估專家數量“稀釋”偏差,此外,為了消除專家打分的不穩定性,還可通過隨機抽取專家和制定打分規則等方法予以解決。
評估指標是根據評估目的和任務,準確反映評估對象某一方面的特性,從不同屬性和側面刻畫評估對象所具有的特征。指標的集合構成了指標體系,其合理性是評估結果科學性、公正性的重要保證。確定評估指標需要經過研究而非主觀臆想,指標通常應具有獨立性、完備性和適應性,而實際中指標往往相互關聯,導致因果關系難以被發現。
指標權重反映指標在指標體系中的價值高低和相對重要程度,是指標在指標體系中所占比例值,如果總指標為1,其中每個指標占比份額稱之為“權重”。由于指標體系指標特性和綜合評價模型選擇不同,改變指標權重,往往會導致評估結果的改變。
專家打分集結規則主要有對專家打分求均值或求“剪枝均值”等方法,“剪枝均值”即體操打分法,去掉專家打分中的最高分和最低分再求均值,有利于去除專家偏好導致的“異常”值,使打分更客觀和公正。
常用的綜合評價模型有三種:一是加權求和法,適用于各評估指標相互獨立情況;二是指數綜合法,適用于各指標有較強關聯性的情況,突出權重小的評估指標值的作用,該方法對指標值變化敏感,能體現評估對象整體的均衡性;三是混合法,即加權求和法和指數綜合法的綜合,適用于部分指標相互關聯,部分指標相互獨立的情況。
在因果效應模型中,主流魯賓模型基于觀測數據。當隨機實驗不涉及非人的倫理道德時,隨機實驗數據與觀測數據具有相同的物理意義,也稱之為可控實驗或準隨機實驗。隨機實驗方法包括全析因實驗、單因素輪換、正交實驗、均勻設計等。當實驗因素超過3 個時,因素之間會存在相互作用,彼此影響,不同因素、水平的組合會導致實驗次數的急劇增加,這無疑增加了實驗成本。正交實驗設計具有“均勻分散性和齊整可比”的特點,它從全析因實驗點中挑選代表性的樣本點進行實驗,大大減少實驗成本。
正交實驗中,關鍵因素水平的確定是實驗設計的重點,也是評估結果合理可解釋性的依據。雖然關鍵因素及其水平的確定理論上遵循隨機原則,但是實際中要依賴于評估對象、需求和經驗進行取值。通常,影響評估結果的關鍵因素主要有評估專家、評估指標、指標權重、專家打分集結規則、綜合評價模型等。評估專家的確定,考慮到專家數量以及專業領域,可事先在專家庫中將專家分組,隨機按組抽取;權重系數按以往經驗確定,可事先按典型情形分組;專家打分集結規則采用“剪枝均值”和均值兩種;綜合評價模型可考慮加權求和法、指數綜合法和混合法三種。
評估結果的解釋,主要為正向解釋結果、反向回溯過程。正向解釋結果,就是專家的選擇、評估指標體系及權重的確定、專家打分集結規則的制定,以及綜合評價模型的選擇,弄清關鍵因素設置以及設置帶來的結果;反向回溯就是一果多因分析,通過實際評估結果,反向回溯專家選擇、指標體系構建、專家打分集結規則、綜合評價模型選擇的合理性,通過改變關鍵要素的水平,比較潛在結果與實際結果的差異,分析其影響,進而解釋實際評估結果的合理性。可控正交實驗對評估結果的解釋流程如圖2。

圖2 潛在結果與實際結果比較解釋流程圖
以某防空旅年度訓練考核評估為例,以營為單位進行,成績分為基礎訓練、專業訓練、現場答辯,其中,基礎訓練、專業訓練為客觀成績,現場答辯由專家現場打分獲得;然后按照給定權重和綜合評價模型進行計算、排名并擇優。根據初選情況,某年度防空旅有6 個營(St1-St6)參評,根據考核和評估,已評出年度3 個先進單位,作為實際評估結果?,F在通過正交實驗設計方法,用問卷調查方式獲取實驗觀測數據,構建潛在結果模型,并對潛在結果與實際評估結果進行比較,解釋實際評估結果的可信度與公正性。
經過對該防空旅往年的考核評估情況研究分析,影響各綜合成績的關鍵因素主要是單位本身訓練水平,從評估過程看,還涉及專家選取、考核方式、綜合評價模型、專家打分集結規則和權重等。這里參照該防空旅以往評估經驗,關鍵因素及水平選擇如下。
(1)因素1(F1):選取專家。在專家庫中抽取18 名專家,隨機分為兩組,水平1(p1)代表專家組1,水平2(p2)代表專家組2。
(2)因素2(F2):考核方式。該因素有兩種水平,水平1(t1)為平時訓練考核,關注平時訓練成績,總分300,包括平時基礎訓練100 分,平時專業訓練100 分,現場答辯100 分;水平2(t2)為年度集中考核,以集中考核成績為依據,總分400 分,包括基礎訓練100 分,專業訓練200 分,現場答辯100 分。
(3)因素3(F3):專家打分集結規則。包括剪枝均值和均值兩種水平,水平1(m1)表示“剪枝均值”打分法,水平2(m2)表示均值打分法。
(4)因素4(F4)為綜合評價模型。主要有兩種水平,水平1(s1)表示加權求和法(總得分S =SE·WE+Sp·Wp+Si·Wi);水平2(s2)表示混合法(總得分·SiWi)。其中,SE,Sp和Si分別代表基礎訓練成績、專業訓練成績和答辯成績,WE,Wp和Wi分別為三者權重。
(5)因素5(F5):權重。按照往年經驗,有三種水平:水平1(k1 =(0.1,0.4,0.5));水平2(k2 =(0.1,0.6,0.3));水平3(k3 =(0.15,0.45,0.4))。關鍵因素及其水平設置見表1。

表1 關鍵因素及水平一覽表
實驗中評估數據主要為各單位的基礎訓練成績、專業訓練成績和現場答辯成績,其中客觀成績部分(基礎訓練成績和專業訓練成績)采用各單位的實際數據。現場答辯的成績主觀成分較大,為了盡可能還原實際的答辯場景,更加真實地反映各單位的實際水平,實驗從實際專家庫中選取18 名專家,分為兩組,采用問卷調查的形式,提供各單位的基礎資料、客觀訓練成績和實際的現場答辯錄像,由專家再次進行打分。具體數據見表2。

表2 單位考核成績數據表
采用正交實驗設計助手軟件進行實驗設計,根據因素和水平數,生成正交表,如圖3 所示。

圖3 正交實驗正交表
按照正交實驗設計,對表2 中數據,計算給出每個單位的總得分。需要注意的是,由于各組實驗是不同因素不同水平的組合,為解決結果統計中量綱不一致的問題,需要對結果進行歸一化處理,得到各單位的潛在結果成績。使用正交設計助手軟件得出單位的潛在結果成績和極差值,見表3。

表3 正交實驗方案及實驗結果
以St1 為例,實驗結果如圖4 所示。

圖4 正交實驗極差分析表
本案例的實際結果完全由各單位實際成績依據實際選取的水平計算獲取。實際的水平選取如下:采取了年度集中考核方式(t2),按照“剪枝均值”的專家打分集結規則(m1),運用加權求和的綜合評價模型(s1)。對每個單位的8 組實驗成績求均值和方差,可從均值意義上比較潛在結果和實際結果,見表4。

表4 潛在結果與實際結果對比
4.5.1 關鍵因素分析
極差值衡量因素對結果的敏感程度。根據表3 中的平均極差值,以柱狀圖方式對各因素的平均極差值進行直觀對比,見圖5。

圖5 各因素極差對比圖
由圖5 可知,綜合評價模型的極差值最大為4,專家選取和權重極差值次之,分別為1.34 和1.32,考核方式極差值為0.88,專家打分集結規則極差值最小為0.17,表明:一是綜合評價模型對結果最敏感,會對結果產生較大影響;二是專家和權重的選擇對結果也較為敏感,說明專家和權重選擇的差異會在一定程度上影響結果;三是專家打分集結規則對結果最不敏感,無論是剪枝均值還是直接求均值,對于結果的影響不大,這說明幾乎不存在刻意打高分(或低分)的專家,專家的打分結果相對比較公正。
4.5.2 實驗偏差分析
由表3 得出各組實驗的潛在結果,如圖6 所示。表明各單位在不同實驗中成績的變化趨勢基本一致,但在實驗3 中,St3 的成績相比于其他單位有提高,這與總體趨勢有差異。

圖6 各組實驗潛在結果對比圖
進一步分析實驗3 中St3 成績“異?!钡脑?。通過上面的極差分析,綜合評價模型和權重是對結果最為敏感的兩個關鍵因素。由表2,St3 的專業訓練成績最高,而實驗3 中綜合評價模型選擇了水平s2(混合法),權重選擇了水平k2(基礎訓練權重0.1,專業訓練權重0.6,答辯權重0.3)。水平k2 放大了專業訓練的權重,水平s2 又增強了專業訓練和現場答辯的相關性,兩個關鍵因素水平的選擇均對St3 總成績提升“有利”。
4.5.3 實驗潛在結果與實際結果對比
由表4 可知,從均值意義上比較實驗潛在結果和實際結果,如圖7 所示。潛在結果各單位成績排序為St1>St2>St4>St3>St5>St6,實際結果各單位成績排序為St1>St4>St2>St5>St3>St6。按照成績由高到低,實驗結果和實際結果的評選結果一致,評選出的先進單位均為St1、St2 和St4。

圖7 潛在結果與實際結果對比圖
單位成績排序具有一定的差異性,主要是St2和St4 的順序發生改變,St3 和St5 的順序發生改變。從實驗結果來看,St2(85.64)和St4(85.32)、St3(84.69)和St5(84.15)成績非常接近,從側面反映了這兩組單位的實力相近。由于實際結果選擇的水平一定,可能對某一單位更有利,容易產生實力相近單位成績排序上的差異,因此,在不影響實際評選結果的前提下,排序差異可以解釋。另一方面,單位成績的方差越大,表明該單位成績更容易受關鍵因素水平選取的影響,從側面反映出單位成績不穩定、實力水平相對較弱,圖7 中St6 的方差最大,成績卻遠低于其他單位。
基于正交實驗的潛在結果模型計算得出的結果與實際結果一致,說明實際評估過程中制定的規則、權重、選擇的專家組和綜合評價模型等是比較合理的;通過極差分析,能夠找到對結果影響敏感的關鍵因素;從均值意義上比較實驗結果和實際結果,能夠在一定程度上解釋結果的差異和合理性。但也發現一些問題,一是觀測數據獲取過程中,重現答辯過程是基于重新抽選專家進行問卷調查,與真實情況有一定的誤差;二是不同量綱歸一化過程中容易放大或縮小實際的差異,造成潛在結果數據的差異。如何減少主觀數據的差異,以及評估對象裁剪的獨立性,是一項探索性研究工作,需要進一步研究深化。