曹玉紅,趙 乙,陳佳樺
1(中國電子學會 科技評價中心,北京 100036) 2(清華大學 計算機科學與技術系,北京 100084) 3(北京大學 軟件與微電子學院,北京 102600)
排序是生產和生活中用來對事物的價值或者重要程度進行評估的重要手段,并且具有顯著的現實意義.比如,對于有序的集體而言,可以迅速從中選擇出符合要求的個體,提高人們制定最優決策的效率.此外,排序操作在具有重要社會意義的同時,也是計算機系統中數據操作的基礎.
在社會生活中,優秀人才的推薦、項目優劣的整體評估、各類報獎評優活動的決策,都是建立在排序的基礎上.合理公平的排序對于國家的優秀人才選拔、項目資金的合理分配、評獎評優的公平公正具有重要意義,是維護社會穩定、激勵人們進步、促進國家未來發展的重要基石.
在大型評價活動中,為了對各個項目進行客觀公正的評價,首先需要制定合理的評價指標,其次需要專業客觀的評價專家和嚴謹的評價算法[1].在日常生活中,筆試和面試是兩種常用的評價方法.筆試評價對受試者的評估流程相對固定和客觀.然而,面試評價可能因為評價專家的個人經歷以及專業背景的不同而摻雜專家的主觀情感.特別地,為了緩解參與評價的項目眾多而評價專家的人數和時間有限的矛盾,在實際生活中常常采用平行分組評價的方法.此類場景類似于研究生入學面試、畢業答辯、公務員面試等場景,并且具備本質上的相似性.對于這些場景,分組導致的組與組之間專家和項目水平的差異、以及同組內專家對評價標準的理解差異加重了面試過程中的不公平現象.
除了社會意義外,排序對于檢索系統、推薦系統等計算機系統同樣具有重要意義.概括來講,計算機系統中的許多實際應用也可被視為一個分組評價排序問題.具體地,企業之間需要建立自己的檢索系統,但是由于各個企業對數據隱私的重視使各個企業之間的數據形成了數據孤島,在此基礎上構建的基于聯邦學習的排序算法[2]可以被抽象為一個分組評價排序問題.在聯合檢索系統中,將多個子系統檢索結果列表合并成一個列表[3],同樣需要解決如何進行綜合排序的問題.除此之外,計算機系統中的排序應用還有數據挖掘中對實體解析的記錄對進行排序[4],個性化推薦系統中對反饋數據進行排序[5],程序設計中的歸并排序,等等.排序作為計算機操作數據的基礎,研究如何更加合理地排序對于提升用戶的使用體驗,進而提高應用系統的商業價值具有重要意義.
本文以排序的社會應用為背景,重點研究如何提高分組評價排序中的公平性.比如,一些研究人員利用多目標優化方法研究了如何更加合理、更加科學地對面試中的老師和學生進行分組[6].隨著深度學習等學習類算法的發展,一些研究人員利用循環神經網絡和注意力機制對面試者的人格特征進行學習[7],以準確預測面試者的總體得分.針對面試者感受到的不公平,一些研究人員提出使用機器人作為中間代理人來提高面試者的公平感知[8].
本文基于網頁重要性評估的PageRank算法和HITS算法中用到的反復改進原理,設計了一種可以兼容異構數據的穩定評估模型.本文的主要工作如下:
1)建立了處理分組評價排序問題的穩定評估模型,該模型可以兼容處理分組帶來的異構數據;
2)分析了分組帶來的組內偏差和組間偏差,并在模型中建立相關步驟消除組內、組間偏差;
3)通過專家權重和項目得分互評,以項目得分作為中介,實現專家對專家之間的權重評價;
4)建立完整實驗對模型的有效性進行了驗證.
本小節將介紹異構數據的基本概念以及在本文中的具體概念.同時,本小節以網頁重要性評估為例,簡要介紹反復改進原理以及相關算法.
異構數據指的是一個整體數據中部分個體數據包含不同的數據特性.根據導致數據差異的原因不同,異構數據可以按照不同層次進行劃分.比如,在計算機體系結構層次的異構中,數據由于存儲的物理來源不同而產生異構特性.在存儲的邏輯模型層次的異構中,數據分別在不同的業務邏輯中存儲和維護,導致含義相同的數據在表現形式方面存在異構特性.在異型信息系統中使用不同信息描述方法及信息域劃分標準,導致對同一實體的描述信息在語義表述和邏輯結構方面存在異構特性[9].這些層次的異構阻止了各個系統之間的信息交互和資源共享.
本文的異構數據,指的是不同分組之間的專家打分存在整體差異以及由于個人對評價標準理解不能達到高度一致從而導致同組專家評估時產生的差異.除此之外,本文的異構數據也包含不同分組之間項目數和專家數不同時獲得的原始評分數據維度存在的微小差異.為了對異構數據進行整體利用,首先需要對數據進行轉換,使數據具有相同的表現形式和含義[10].對異構數據轉換的核心是指定統一標準.在本文中,統一標準指的是消除分組帶來的組間偏差和專家評價標準不一致帶來的組內偏差,使各個專家的評價標準盡可能統一.
網頁重要性評估是搜索引擎關注的基本問題.其中,PageRank算法和HITS算法是基于網頁鏈接分析的兩個重要網頁排序算法,其思想都是基于反復改進原理.本文設計的模型也是利用反復改進原理,并且對PageRank算法和HITS算法中的部分理念進行了融合.
2.2.1 PageRank算法
PageRank算法是在1998年由Google創始人Lawrence Page和Sergey Brin提出來的基于鏈接分析的網頁排序算法[11].PageRank算法利用網絡的拓撲信息,能有效地識別出網絡中的重要節點[12].對于網頁的重要性,PageRank算法主要從兩個維度來判斷:某一個網頁是否被多次引用,以及某一個網頁是否被重要性很高的網頁引用[13].在PageRank算法中,通過各個網頁之間關聯關系來衡量各個網頁彼此之間的影響力,通過網絡中出鏈入鏈的影響力,最終找出對網絡具有最大影響程度的關鍵節點[14].PageRank算法首先會確定每個網頁的PageRank值(簡稱為PR值),然后根據PR值的大小對網頁的重要程度進行排序.若是某個網頁X中包含了指向網頁Y的鏈接,則視為網頁X對網頁Y投了一票.如果有很多網頁鏈接都指向了網頁Y,則說明網頁Y的重要程度較高.相應地,網頁Y的PR值也就比較大.通過多次計算,反復更新網絡中每個網頁的PR值,最終求得每個網頁的穩定PR值.
2.2.2 HITS算法
傳統PageRank算法的局限性在于網頁將自己的PR值平均分配給了該網頁鏈接鏈出的節點,這與實際應用中網絡節點交換的信息量并非平均分配這一事實不符[12].因此,康奈爾大學學者提出了HITS算法[15]來改進PageRank算法中PR值平均分配給鏈出節點這一局限性.HITS算法中提出了兩個重要概念:“樞紐(Hub)”頁面和“權威(Authority)”頁面.具體地,Hub值用來衡量網頁的出鏈,Authority值用來衡量網頁的入鏈,兩者綜合起來對網頁的質量進行評估.Authority頁面通常會更多地被其他網頁引用,而Hub頁面則通過許多關鍵鏈接引用更多的Authority網頁.質量高的Hub頁面應該盡可能多地包含Authority頁面,質量高的Authority頁面則應該擁有盡可能多的與其鏈接的Hub頁面.因此,網頁的Hub值和Authority值可以相互評估.一個頁面的Authority值是鏈接至該頁面的其他頁面Hub值之和;一個頁面的Hub值是它鏈接的頁面的Authority值總和[16].Authority值和Hub值利用反復改進原理,在迭代中不斷更新、相互優化.
本文提出的穩定評估模型,利用反復改進原理求得專家評估項目分數的穩定權重值.
本小節將詳細介紹本文提出的穩定評估模型,該模型可以處理實際生活和計算機系統中分組評價排序問題.該模型的處理過程可以分為偏離剔除、組間偏差調整、組內偏差調整三個步驟.為了便于描述模型的每個步驟,表1列出了文中常用的符號及其意義,每個符號的具體含義同時取決于符號的下標.

表1 符號說明
在表1中,m是一個組內專家的數量,n是該組內項目的數量.
關于偏離剔除,指的是通過計算相關數據,剔除一位專家的打分.根據專家之間的打分對比和專家個人打分的離散程度,本文設計了兩種偏離剔除方案.
3.1.1 方案1

(1)
在得到每一位專家的偏離度之后,利用公式(2)來決定被剔除的專家編號.
(2)
在求出偏差最大的專家編號k之后,剔除專家k對所有項目的打分.
3.1.2 方案2

(3)
方案1有利于找到與其他專家意見相差較大的專家進行剔除,進而提高后續處理的公平性.方案2有利于找到評分范圍過于離散的專家評分進行剔除,諸如存在惡意打低分或者高分.具體地,在步驟1:偏離剔除中,使用哪種偏離剔除方案可以由使用人員根據具體的使用場景自行決定.
為了消除部分評價小組評價寬松則整體成績偏高,而部分評價小組評價嚴格則整體成績偏低的現象在整體排名中引發的不公平問題,即組間差異,需要對剔除一位專家的打分后的所有分數進行歸一化.歸一化方法為Min-Max歸一化,即公式(4).
(4)
在公式(4)中,min代表對于專家i,該專家所有打分中的最小值,max代表該專家所打分中的最大值.

(5)
在公式(5)中,L為指定范圍的下界,U為指定范圍的上界.下界和上界的具體值可以根據實際的應用場景而定.
關于組內偏差調整,本文提出給每位專家分配一個權重來消除組內各個專家對考核標準的理解和評價標準的不一致而引發的不公平現象.基于PageRank算法和HITS算法中所使用的反復改進原理,本文將某一個專家的評分和其他專家的評分進行比較來驗證該專家打分的合理性,進而通過調整專家的權重來提高評分的公平性.在反復改進的過程中,專家的權重改變會影響項目整體分數的變化,進而項目的排名也可能發生變化,項目整體分數變化后再重新計算專家的權重,實現專家和項目分數,專家和專家之間相互評分.
在初始階段,本文提出的方法設置所有專家的權重為1,即wi=1 (i=1,…,m,i≠k);而所有項目的總排名均為0,即rj=0 (j=1,…,n).隨后,將某一個項目j的歸一化分數與專家的權重相乘,得到項目j考慮不同專家權重的權重分數wsj(j=1,…,n),即公式(6).
(6)

(7)
在利用公式(7)計算得到的[nw1,…,nwm]后,通過Min-Max歸一化后得到更新后所有的專家權重[w1,…,wm].每次計算完項目的權重分數后,用權重分數重新對所有項目進行排名.當排名不變的次數達到指定次數時,停止更新專家的權重,得到的最新權重即為每位專家的最終權重值.在本文中,當排名次數連續10次保持不變時,計算出的專家權重值為穩定專家權重值.
計算專家權重值的步驟可以描述為算法1.
算法1.專家權重值計算算法
輸入:各位專家對項目的原始分數矩陣:group_value
項目的初始排名:previous_rank
專家的初始權重:W0=[w1,…,wm]
排名保持不變的次數:keep_times
輸出:每位專家穩定的權重值:W=[w1,…,wm]
1.公式(6)計算項目的權重分數
2.用權重分數計算項目的新排名new_rank
3.if(new_rank等于previous_rank)
4. keep_times加1
5.else
6. keep_times置為0
7.if(keep_times等于停止次數)
8. return [w1,…,wm]
9.else
10. 公式(7)更新[w1,…,wm],返回步驟1
通過算法1可以得到每位專家的穩定權重值,將進行組間歸一化后的分數與各位專家的權重相乘,可以得到項目的最終得分,從而可以消除組間、組內偏差,進而實現所有項目的整體排名.
基于反復改進原理的專家權重與項目分數互評的穩定評估模型的整體流程描述為算法2.
算法2.模型整體流程描述
輸入:專家對所有項目的打分
輸出:所有項目排名
1.用公式(1)/(3)結合公式(2)計算每組偏離度最大的專家編號k
2.每組剔除編號為k的專家打分
3.使用公式(4)對每個打分進行歸一化
4.用公式(5)將歸一化的打分映射到[L,U]的范圍
5.執行算法1得到每組專家的權重值
6.將步驟5的各個專家權重乘步驟4的分數
7.對步驟6中所有項目分數進行排序
本文用兩組評價數據對提出的模型進行了測試.一共30個項目,分為兩組:第1組17個項目,編號為1-17;第2組13個,編號為18-30.每組均有9位評審專家.為了后續敘述方便,本文將簡單地使用平均值計算項目最終得分的方法記為AVE(Average)方法,而將本文提出的穩定評估模型記為SEM(Stable Evaluation Model)方法.
在平行分組評估中,不同組的專家對項目的評價標準和對評價標準的理解可能存在較大差異.而且,在實際生活中,由于同一個組的專家可以商量和討論,同一組專家的評價標準將會趨向于一致,不同組專家的評價標準則更大概率存在較大差異.為了驗證本文提出的穩定評估模型(SEM)能夠減小組間的偏差,圖1和圖2展示了驗證結果.

圖1 基于AVE方法的兩組得分
在圖1中,圓圈對應的縱坐標代表1組項目利用AVE方法計算的最終得分,三角形對應的橫坐標代表2組項目利用AVE方法計算的最終得分.灰色虛線是斜率為-1的參照線.將1組和2組對應名次的項目用黑色實線連接后,兩組的評價標準越是一致,那么黑色實線的斜率應該越接近于-1.1組項目的AVE分數整體分布在[60,90]之間,2組項目的AVE分數分布在[60,80]之間.通過觀察圖1可以發現,利用平均值方法計算的最終得分中,1組項目明顯高于2組項目,這說明兩組專家打分的整體標準不一致,2組專家的評價標準要更加嚴格.
同理,可以作出利用本文提出的SEM方法得到的1組項目和2組項目的得分圖,如圖2所示.圖2中每個元素代表的含義與圖1中的含義相同.通過觀察圖2可以發現,本文提出的SEM方法得到的1組項目和2組項目的得分整體都分布在[70,100]之間.兩組SEM分數對應名次的連線的斜率值更接近于-1,這說明SEM方法能夠促進兩組項目的評分標準更加一致.

圖2 基于SEM方法的兩組得分
通過圖1和圖2對比,可以證實本文提出的SEM方法能夠有效地消除不同小組評價標準不同帶來的組間偏差.
在平行分組評價中,除了組間偏差,還有組內偏差.組內偏差是同一小組內的專家由于專業背景和對評價標準理解不一致所導致.
為了驗證本文提出的模型能夠有效地消除組內偏差,圖3展示了專家評分分布.在圖3中,橫坐標代表剔除了1位專家后剩下8位專家依次排列的編號,縱坐標代表分數.虛線代表采用AVE方法時每位專家打分的范圍,而三角形代表采用AVE方法時每位專家打分的平均值.實線代表采用SEM方法時,每位專家打分的范圍,而五邊形代表采用SEM方法時每位專家打分的平均值.通過觀察圖3可以發現,相比于原來的專家打分范圍分布差異大,利用本文提出的SEM方法處理項目得分后,各位專家打分的范圍分布一致且均勻.通過觀察平均值分布可以發現,在打分平均值方面,相比于AVE方法而言,SEM方法所得到的結果整體差異較小,進而證實本文提出的SEM方法能夠有效地消除組內各個專家評價標準不一致的問題.

圖3 專家評分分布
為了驗證SEM方法剔除一位專家的操作的必要性,本文作出了剔除一位專家和不剔除一位專家兩組項目的整體排序,如圖4所示.

圖4 剔除與不剔除一位專家分數散點圖
在圖4中,橫坐標代表排名,縱坐標代表分數,三角形代表未剔除一位專家計算出各個項目分數的排名,圓形代表完整地利用SEM方法計算出各個項目分數的排名.空心圖形代表第1組項目,實心圖形代表第2組項目.圖形旁邊的數據代表項目的編號.圖形上方的文本代表剔除一位專家得到的項目排名對應的編號,即空心和實心圓形對應的項目編號.圖形下方的文本代表未剔除一位專家得到的項目排名對應的編號,即空心和實心三角形對應的項目編號.
通過觀察圖4可以發現,雖然剔除一位專家與否不會對所有項目的分數分布產生明顯影響,但是卻會影響一些項目的排名情況.本文將剔除與不剔除一位專家評分對項目排名的影響分為3種情況.情況1:對于所有專家都認可的優秀項目,如18、1、2號項目,剔除與不剔除不會影響項目的排名.情況2:對于個別專家對質量存在微小爭議的項目,如19、3號項目,剔除與不剔除會影響項目前后的排名順序.前兩種情況都不能體現出剔除一位專家的必要性.但是對于第3種情況,如因為專家的專業背景與項目知識不同導致的差異、有專家惡意打低分、因私人關系打高分等情況,剔除一位專家能有效避免這些情況所引發的不公平現象,如6號項目.這與現實生活中大型體育賽事評分中需要去掉一個最高分、去掉一個最低分的目的一致.因此,剔除一位專家的打分具有合理性.而且,剔除一位專家有利于排除因專家個人偏好不同和惡意打分行為所引發的不公平現象.
針對平行分組評價中由于專家對打分標準的理解和評價標準不同產生的異構數據,本文提出了一種基于反復改進原理的穩定評估模型.首先,對打分專家的偏差進行計算,從而剔除一位專家的打分.然后,利用Min-Max歸一化,消除組間差異.通過反復改進原理,計算出同一組內專家穩定的權重值,以消除組內各位專家的差異.通過不同維度的充分實驗,實驗結果驗證了本文提出的穩定評估模型的有效性,并且證實了本文提出的穩定評估模型有利于消除平行分組評價中的不公平現象.