群組決策主觀評分型競賽名次的優化模型

2022-08-18 03:15:30郭東威丁根宏

工程數學學報 2022年3期

郭東威，丁根宏

(1. 周口師范學院數學與統計學院，周口 466000; 2. 河海大學理學院，南京 211100)

0 引言

所謂群組決策是指多個決策者就同一問題共同做出決策，其理論研究和應用研究已成為當前管理學、數學、經濟學、社會學和政治學等學科決策研究者共同關心的熱點話題和前沿領域[1–2]。為確保決策的科學性、民主性，人類的決策問題越來越依賴于群組，尤其是對于具有不確定性或依賴主觀評價的問題。群組決策的具體實施如下：

設有S1，S2，···，Sm共m個決策者，他們構成決策群組G。被評估的對象(或稱目標、指標)為B1，B2，···，Bn共n個。xij ∈[I，J]是第i個專家對第j個被評對象的評分值。xij越大，表示Si認為目標Bj越好。向量xi= (xi1，xi2，···，xin)T和矩陣x=(xij)m×n分別代表專家個體Si和群組G在一次決策行為中所作的結論。

本文以全國大學生數學建模競賽為例來研究主觀評分型競賽公平閱卷及排名問題。閱卷的理想情況是每位評委能公平公正地評閱每份論文，但是由于工作量、時間等原因的限制，這種理想的閱卷方案很難實施。目前對此類大型競賽的評閱方式通常為：按照一定的規則每份論文僅由隨機指定的幾個評委逐一評閱。群組決策在一定程度上減小了單個評委誤判或感情分帶來的不公平現象，然而也產生了新的不公平現象，即由評委打分尺度不同引起的系統誤差會給最終的排名帶來較大誤差。

以A= (aij)表示評分矩陣，aij表示第i號評委對第j篇論文的評分，如果第i號評委沒有對第j篇論文評閱，那么元素aij空著不填(不參與計算)，于是評分矩陣A=(aij)是殘缺不全的，但一般情況下每篇論文都有相同的缺失率，并且缺失數據是隨機分布的。因此，傳統的排名方法，即直接取均分排名誤差較大。例如有A、B 兩篇論文，客觀上A 論文比B 論文質量好，但由于隨機分配，A 論文分配給了三個打分普遍偏低的評委，B 論文分配給了三個打分普遍偏高的評委，結果可能導致A 論文的平均得分低于B 論文的平均得分。為了減小此類誤差，目前常用的方法是T 分數法[3]。雖然T 分數法可以通過調整原始評分，將評委的打分尺度統一，但是它局限于同一樣本之間的橫向比較，對于殘缺評分情況依然存在較大誤差。我國學者史曉峰建立了公平評卷的多目標優化模型，提高了論文排名的準確性[4]；鄢麗建立了在一定的置信概率下逐輪淘汰的評判方法，使得排名的公平性在一定的置信概率下得到保證[5]；易昆南等提出了對缺損評分矩陣進行填補的方法[6–7]，但是填補缺失數據的辦法僅對缺失率很小的情況有效，對于缺失率較大的情況反而很可能增大排名的誤差。文獻[8—9]為了減小了系統誤差，根據理想點法及誤差平方和最小模型求得了評委的權重，對T 分數加權平均，提高了排名的科學性。文獻[10—11]分別利用成對比較矩陣及數量積法確定了評委的權重，對T 分數加權平均，減小了論文的爭議度及評委評分的誤差度，從而提高了排名的準確性。為了提高評委打分的可信度，近年來興起了網上閱卷方式，該方式可以實時監控評委打分的情況，比如均分、方差及分布等。網評模式在一定程度上控制了評委打分的系統誤差，提高了打分的一致性，但是也導致了評委打分保守的負面效應[12]。本文首先給出論文均勻分配的數學模型，其次將原始評分轉化為T 分數，應用極差平方和最小法求得各評委權重，最后對T 分數求加權平均進行排名。通過200 次模擬實驗比較，證明本文方法比傳統方法及T 分數法更科學公正。

1 論文分配的數學模型

步驟1 輸入評委、論文相關參數；

步驟2 選取未分配的論文p；

步驟3 對論文p分配給評委i進行檢測：

1) 論文p是否已經分配給了評委i；

2) 評委i是否與論文p來自同一所學校；

3) 論文p的分配是否超過了評委i能評閱量的上限；

4) 論文p的分配是否超過了評委i能評閱此學校論文的上限；

如果論文p分配給評委i是可行的，計算此分配引起的目標函數值的增量；

步驟4 經過對論文p分配給所有評委進行檢測，如果論文p可以分配給多個評委，則比較這些可行分配方案使目標函數值的增量，隨機選取使目標函數值增量最小的分配方案作為論文p的最終分配；

步驟5 重復步驟3 和步驟4，直到論文成功分配給3 個評委；

步驟6 重復步驟2 至步驟5，直到所有論文分配成功。

該論文分配模型保證了每個評委評閱的論文數量盡可能接近，避免了評閱數量不均的現象，從而在下節確定評委權重的模型中，保證了每個評委可用的數據量盡可能接近，減小了因數據量差異較大引起的誤差。

2 論文排名的極差平方和最小法

模型假設：

1) 每篇論文分配給3 個評委獨立評閱，所有評委都有較高的評閱水平，即他對一組論文進行排名應和該組論文的真實排名不會出現嚴重不合，誤判情況除外；

2) 每個評委都是公正的，即如果他認為論文A 優于論文B，則該評委給A 的評分高于給B 的評分。

基于以上假設，那么一篇論文的三個得分越靠近(方差越小)越能體現該論文的真實水平，但是由于評委打分尺度不同，往往三個得分差異較大，而且每篇論文的評委都不盡相同，導致傳統方法及T 分數法的排名結果都有較大誤差。為了使每篇論文的三個得分盡可能接近，首先將原始評分轉化成T 分數，然后對T 分數乘以評委權重進一步調整。確定評委權重的具體方法如下。

合理性分析：對于同一篇論文，其客觀水平是確定的。因此，如果各個評委的評分標準一致(即不考慮系統誤差)且客觀公正，那么每個評委對該篇論文的評分應該相差不大。但實際情況是各評委之間往往存在較大系統誤差，導致對同一篇論文的評分存在較大差異。模型確定的評委權重，可以使每一篇論文的各個得分加權后盡可能接近。因此，評委權重的確定方法是合理的。

3 仿真實驗及對比分析

3.1 成績的生成

研究表明[13-15]，在考生眾多的大型競賽或考試中，考生總體成績及評委打分合理有效的分布應該呈對稱正態分布或偏態分布。因此，本文所做的100 次仿真實驗，論文的客觀成績及各評委所打的分數均服從正態分布，其中客觀成績可以視為無數評委打分的均值，具體操作如下。

3.2 檢驗排名結果優劣的指標

常用排名方法有傳統方法和T 分數法。傳統方法是指按原始得分的均值進行排名的方法；T 分數法是指依據T 分數均值進行排名的方法。

為了檢驗排名結果的優劣，定義以下概念[16]。

Di的值越小，說明i號評委的評分越接近論文的最終得分，即他的評分誤差度就越小；反之誤差度就越大。Hj的值越小，說明評委們對j號論文的評價越一致。根據經驗，一般爭議大的論文可能有兩種情況，一是評委誤判，二是該論文創新性強，所用方法還未被充分認可。因此，造成評委不能夠達成統一的認識。所以在賽制允許的情況下應該對爭議大的論文重新討論并進行分數修正。

3.3 具體實驗及結果分析

為了檢驗本文方法的有效性，分兩組做模擬實驗，每組實驗模擬100 次。第一組實驗論文數量n= 40，評委數m= 5，并將結果與傳統法及T 分數法的結果進行比較，具體結果見表1。第二組實驗論文數量n= 100，評委數m= 20，并將結果與傳統法、T 分數法、文獻[9]中的加權T 分數法、文獻[16]中的梅西法作比較，具體結果見表2。

從表1 中數據可以看出，對小規模競賽，本文方法的排名結果無論是平均重合度還是平均亂序度都遠優于傳統法和T 分數法。由表2 知，對評分缺失率較大的大規模競賽，本文方法的排名結果遠優于傳統法、T 分數法及文獻[9]中的加權T 分數法，與文獻[16]中的梅西法結果相近，平均重合度比梅西法多0.07，平均亂序度比梅西法多1.62。兩組實驗結果表明本文方法可有效降低系統誤差帶來的排名偏差，使排名結果更客觀準確。

表1 小規模競賽的100 次試驗結果

表2 大規模競賽的100 次試驗結果

表3 展示了第一組實驗的其中一次具體數據及結果。表中sm：s為成績，m為對應方法下的名次；x(n)：x為原始評分，n為對應的評委編號。由表3 可知，每位評委評閱論文24 份，說明了本文給出的論文分配模型的可行性；比較三種排名方法，不難看出傳統法的排名效果最差，而且容易出現得分相同的現象；T 分數法和本文方法在最終的得分上有1 分左右的差異，這是由于不同評委所評閱論文的整體水平的差異引起的，T 分數法局限于同一樣本的橫向比較，所以T 分數法對殘缺原始殘缺評分進行調整后依然存在較大誤差；本文方法通過加權對T 分數法的這種局限性給予了修正，使得排名結果比T 分數法更科學準確。

表3 成績及名次

續表

為了更直觀地比較三種方法的優劣，下面給出評委評分誤差度、論文爭議度的直方圖，如圖1 和圖2 所示。圖中方法1、方法2 及方法3 分別代表傳統方法、T 分數法及本文所提出的方法。

圖1 評委評分誤差度比較

圖2 論文爭議度比較

由圖1 和圖2 可以看出，本文方法較傳統方法及T 分數法明顯降低了評委評分的誤差度及論文爭議度，即本文方法通過對T 分數加權有效減小了評委打分的系統誤差。計算三種方法下論文得分的方差分別為：傳統方法80.62，T 分數法93.33，本文方法98.28。顯然，本文方法增大了論文最終得分的方差，使論文水平的區分度更加明顯，更便于選出優秀參賽者。

4 結語

大規模主觀評分型競賽的閱卷排名是復雜的系統工程，為了公平公正給予評價需要較多專家進行評審，但是由于時間的限制，很難做到每份試卷由每個專家逐一評審，往往只能每份試卷由隨機分配的幾個評委進行評閱。對這種殘缺型評分，專家打分的系統誤差往往給排名帶來較大誤差。為降低排名誤差，本文根據得分極差平方和最小法確定了評委的權重，對T 分數加權平均排名，極大地提高主觀名次與客觀名次的重合度，降低了亂序度，減小了評委評分的誤差度及論文的爭議度，從而提高了排名的科學性及準確性。