錢文彬 彭莉莎 王映龍



摘? 要: 現有學生綜合素質評價方法大多是基于二元決策模型的,該模型容錯率低且較難處理存在噪音的連續型學生數據。為此,依據鄰域概念計算連續型數據的鄰域類,再通過三支決策規則對學生進行綜合素質評價。通過分析鄰域參數和閾值對真實學生數據的評價結果的影響,為三支決策對學生進行綜合素質評價時的參數設置提供了參考依據。三支決策中的延遲決策將易評價錯的學生劃分到可進一步評價的邊界域中,一定程度提高了評價合理性,降低了誤評價損失,實現了學生綜合素質評價從粗粒度到細粒度的定量分析。
關鍵詞: 三支決策; 鄰域概念; 學生綜合素質評價; 粒計算; 粗糙集
中圖分類號:TP18? ? ? ? ? 文獻標志碼:A? ? ?文章編號:1006-8228(2019)02-61-06
Method of evaluating students' comprehensive quality with
neighborhood three-way decision
Qian Wenbin1,2, Peng Lisha2, Wang Yinglong2
(1. School of software, Jiangxi Agricultural University, Nanchang, Jiangxi 330045, China;
2. School of Computer and Information Engineering, Jiangxi Agricultural University)
Abstract: Most existing students' comprehensive quality assessment methods are based on the binary decision model, the low fault tolerance of this model is inconvenient to deal with numerical student data with noise. So, the neighborhood class of continuous data was calculated through the neighborhood concept, and the comprehensive quality evaluation of students was evaluated through three-way decision rules. The reference for the parameter setting were provided by analyzing the influence of neighborhood parameters and thresholds on the evaluation results of real student data in the evaluation of student's comprehensive quality by three-way decision. Some easily misclassified students were divided into boundary areas that could be further evaluated by the delayed decision in the three-way decision, which improved the rationality of the evaluation and reduces the loss of miss-evaluation to a certain extent, and achieve the quantitative analysis of students' comprehensive quality evaluation from coarse-grained to fine-grained.
Key words: three-way decision; neighborhood concept; evaluation of students' comprehensive quality; granular computing; rough set
0 引言
隨著互聯網和大數據時代的發展,大量復雜的數據存在于社會生活和科學研究領域中,如何從這些復雜數據中挖掘出潛在有價值的知識和規律已成為當今信息科學領域的研究熱點。在教育領域也存在大規模的學生信息數據,有效地分析和處理這些數據對構建合理的學生綜合素質評價方法具有重要的意義。
三支決策(TWD)是一種分析和處理不確定數據的重要方法[1-4],其理論來源于Plawlak經典粗糙集理論[5]和概率粗糙集理論[6],是決策粗糙集理論[7]的重要延伸,現已廣泛運用于軟件缺陷預測,醫療診斷,垃圾郵件處理,人臉識別等應用領域[8-11]。三支決策的計算模型是通過一對閾值將論域劃分為互不相交的正域、負域和邊界域,這三個域分別對應接受、拒絕和延遲三種決策。當信息不足以立即給對象分類時,為避免因錯誤接受或錯誤拒絕造成的損失,三支決策選擇將該對象劃分到邊界域中,等信息增加后再對其進行分類。
學生綜合素質評價是教學科學管理中重要的工作之一,綜合素質評價體系[13]主要包括學生的思想品質,專業文化水平和身體素質及實踐操作等指標。評價指標信息有時包含噪音數據,例如,向來優秀的學生某次因特殊情況導致幾門考試不及格,根據平均分等級評價標準可能將該學生評價為良好學生甚至為不及格學生,顯然這種二元評價方式不夠合理。
本文引入鄰域概念[14-16]計算連續型學生數據的鄰域類,構建了基于鄰域三支決策的學生綜合素質評價方法。
主要工作:①擴充了學生綜合素質評價工作領域的方法;②給出了基于鄰域概念的三支決策多類分類模型;③可以處理同時存在噪音數據和連續型數據的學生數據。與二元評價決策模型相比,評價結果更加合理,評價準確率更高,誤評價損失更低。
1 基礎知識
1.1 三支決策
在三元組決策表S=(U,C∪D,{Va|a∈C})中;U={x1,x2,…,xm}表示有限非空對象全集,C={a1,a2,…,an}表示為有限非空條件屬性全集,D表示決策屬性,Va表示屬性值。令R表示U上的一個等價關系,則對象x和y的R等價關系為,x的R等價類為{x}R={y∈U|xRy}。
在三支決策粗糙集中,{λPP,λBP,λNP}和{λPN,λBN,λNN}分別表示當對象屬于任意對象集和不屬于時,將劃分到的正域、邊界域和負域的風險損失值,根據期望風險最小化貝葉斯(Bayes)決策準則計算得出三支決策規則:
定義1[1] 在決策表S中,令X∈U,α和β為三支決策閾值,P(X|[x]B)表示對象x基于屬性子集屬于X的條件概率,則對于,其三支決策規則定義為:
其中:;
1.2 鄰域
在鄰域系統NS=(U,C∪D,V,δ)中,U表示非空有限對象全集,C表示非空有限條件屬性全集,D表示決策屬性,V表示屬性值集,δ表示鄰域參數。
定義2[15] 在鄰域系統NS中,,v(x,ak)和v(y,ak)表示對象x和y在屬性ak上的屬性值,則x和y在屬性子集B上的Euclidean距離為:
定義3 在鄰域系統NS中,,則x和y基于屬性子集B的鄰域關系NRδ(B)和鄰域定義為:
2 基于鄰域三支決策的多類分類模型
定義4 在鄰域系統NS中,決策類=
。則Xk基于屬性子集的鄰域三支決策規則定義為:
其中,,且
。
定義5 在鄰域系統中,屬性子集B=C,決策類Xk∈IND(D),。則關于決策屬性D,其在屬性全集C下的鄰域三支決策規則定義為:
;
;
;
2.1 學生綜合素質評價算法
首先,根據平均分等級評價標準,將所有學生初步評價為優秀類、良好類和及格類,然后,歸一化學生數據,根據鄰域概念計算各學生的鄰域類和各學生屬于三個評價等級的條件概率,接著根據三支決策規則將每個學生劃分到各等級的三個域中,最后,對處在正域中的學生保留初步劃分結果,對處在邊界域和負域中的學生待新增評定指標后重新評價。算法具體描述如下。
算法:基于鄰域三支決策的多類學生綜合素質評價方法。
輸入:學生數據決策表和損失函數表;
輸出:優秀學生、良好學生和及格學生;
Step1. 標準化和歸一化NS;
Step2. 初始化δ,計算閾值α,β;
Step3. 獲取初始學生等級;
Step4. for x∈U do
for y∈U do
計算學生之間的Euclidean距離
;
計算學生的鄰域類={y|x,y∈
U,fc(x,y)?δ};
end
end
Step5. for x∈U do
計算學生屬于各評價等級的的條件概率;
end
Step6. for x∈U do
若,則將學生x劃分
到Xk的正域中;
否則,若,則將對象
x劃分到Xk的邊界域中;
否則,將對象x劃分到Xk的負域
中;
end
Step7. 輸出學生評價結果,算法結束。
3 實例分析
為進一步驗證算法的可行性,以表1為例進行分析說明。其中,x1~x10代表10個學生對象,a1~a6代表6項評價指標,AVG代表平均成績。根據平均分等級評價標準([85,100]-優秀;[75,85]-良好;[60,75)-及格)初步評價學生為優秀類、良好類和及格類。
第1步 參考歸一化函數:y=(x-Minvalue)/(Maxvalue-MinValue)對表1進行標準化和歸一化得到表2,其中,條件屬性集{a1,a2,…,a6}以及決策屬性D分別對應表1中6項評價指標和初步評價結果。
第2步 制定損失函數表,設置參數δ,計算閾值α、β。
由定義4可知,若鄰域參數δ過小,則對近似要求更苛刻,鄰域類中元素極少甚至只有本身。反之δ過大,會使能觀察到的不相似對象都被歸為同一鄰域類,不能反映數據的區分信息;但考慮到本實例中學生數目較少,因此初始化δ=0.7。文獻[12]中提到三種最常用的(β,α)取值組合,分別為(0,0.5)、(0.3,0.8)和(0.5,1);(0,0.5)和(0.5,1)對于風險的預測過于積極或消極,而(0.3,0.8)是風險中性的預測方式,符合人們在日常生活中的決策習慣。因此,本例的閾值選取向第二種組合靠攏。
本算例中假設對該三類學生采取優先推薦工作,可以推薦工作和暫緩推薦工作三種決策。并且預先設定:給優秀學生優先推薦工作和暫緩給及格學生推薦工作不造成損失,即λPP=λNN=0。因此,制定風險損失表如表3,然后根據定義1計算得到α=0.8,β=0.27,與上述第二種常用閾值相近,因此較為客觀合理。
第3步 由表2可知,U/D={X1,X2,X3},其中X1={x3,x6,x10}表示優秀類;X2={x1,x2,x5,x7,x9}表示良好類;X3={x4,x8}表示及格類。
第4步 依據算法Step4,計算得到學生之間的Euclidean距離,如表4所示。表中加粗字為滿足鄰域類的鄰域距離值,由此可知,除x5和x9之外,其他學生與學生x1的鄰域距離值都大于鄰域參數δ,因此x1的鄰域類為={x1,x5,x9},同理,可獲得其他學生基于屬性集的鄰域類的結果。
第5步 依據算法Step5和Step6,計算所有評價指標下的每個評價等級的正域、邊界域和負域。以x1為例,因為x1∈x2,所以只需計算=,,故,同理,對學生x2~x10進行劃分和評價,結果如表5所示。
從本例的計算結果看,負域中沒有對象是因為論域U中對象數較少;處在各評價等級正域中的學生{x3,x6,x10}和{x1,x7,x9}以及{x8}仍然保留初步劃分結果,因為依據三支決策語義解釋,表示接受{x3,x6,x10}于優秀類X1中,可以優先為他們推薦工作;同理,{x1,x7,x9}仍處于良好類X2中,可以給他們推薦工作;學生{x8}處于及格類X3中,建議暫緩為他們推薦工作。而{{x2,x5},{x4}}分別被劃分到X2和X3的邊界域中,應待新增考核指標后再評價。
通過計算可知,在待分類對象基數較小的情況下,以往按照平均分所處的分數范圍對學生進行分類的方法基本可行,但略有粗糙,例如X4的平均分為74.67,十分接近良好類的分數線75,但卻被劃分到了及格類中,顯然劃分不太合理,當待分類對象基數較為龐大時,此類現象將會更多,即邊界域中的對象則會更多,負域中的對象也會增加,若僅通過分數范圍進行二元評價會導致更高的錯誤率。而三支決策可對邊界域的學生進行延遲評價,使評價錯誤率降低,評價結果更合理,從而減少了誤評價損失。
4 實驗分析
實驗采集江西農業大學軟件學院的1805位學生的各項指標數據進行仿真學生綜合素質評價,這些指標主要包括思想道德修養課程、體育課程和專業文化課程成績等,其中專業文化成績主要以專業主干課程考試成績為主。實驗運行環境:Win7,Intel (R) Core(TM),CPU i5-3230M 2.6GHz和8.0GB內存,用Java編程語言在開發平臺Eclipse Mars.2 Release(4.5.2) 上實現。
實驗在Euclidean距離下測試了四種情況對學生綜合素質評價的影響。情況1:δ=0.5,β=0.3,α=0.5~1,單調遞增。情況2:δ=0.5,α=0.7,β=0~0.5,單調遞增。情況3:δ=0.5,α=1~0.5單調遞減和β=0~0.5單調遞增的六種組合,即(α,β)={G1=(1,0),G2=(0.9,0.1),G3=(0.8,0.2),G4=(0.7,0.3),G5=(0.6,0.4),G6=(0.5,.5)}。情況4:α=0.7,β=0.3,δ=0.1~1單調遞增。四種情況實驗結果分別展現在圖2中4個子圖(a)~(d)中。
實驗表明,鄰域參數δ和閾值α,β對學生綜合素質評價結果有較大影響。從子圖(a)可知,當δ和β不變時,隨著α增大,正域POS(D)中的學生總數單調遞減,邊界域BND(D)中的學生總數單調遞增;例如,當α從0.7曾至0.8時,正域中學生總數從751減至514,邊界域中學生總數從577增至814;從子圖(b)可知,當δ和α不變時,隨著β增大,負域中的學生總數單調遞增,邊界域中的學生總數單調遞減;從子圖(c)可知,當δ不變時,隨著α減小和β增大,邊界域中的學生總數單調遞減;正域和負域中學生總數單調遞增;從子圖(d)可知,當α,β不變時,隨著δ增大,正域中的學生總數單調遞減,邊界域中和負域中的學生總數除了在δ等于0.4和0.3時突然下降,其余都呈遞增趨勢,例如,當δ=0.6增至0.7時,正域中學生總數從512減至250,邊界域中學生總數從688增至932,負域中學生總數增從6.5曾至623。
根據理論分析和實驗結果可知,閾值α和β對評價結果存在單調性影響,而δ對評價結果既存在單調性影響又存在非單調性影響。因此,在進行學生綜合素質評價前以及對延遲評價的學生進行再次評價時,可結合實際需求和上述分析規律,合理設置閾值和鄰域參數,以制定合理的評價方案,這樣不僅可得到較滿意的評價結果,還可使評價過程代價更少。
5 結束語
本文結合鄰域概念和三支決策定義了多類劃分規則,并將其應用于連續型學生數據處理和分析中,提出了一種基于鄰域三支決策的多類學生綜合素質評價方法。待評價學生通過三支決策被劃分到各評價等級的三個域中,邊界域的引入使得評價更合理,評價準確率更高。通過對真實數據進行實驗,分析了各參數對評價結果的影響,為三支決策對學生綜合素質評價時的參數設置提供參考依據;對比傳統的二元學生綜合素質評價方法,本文方法評價準確率較高,誤分類損失較低。
參考文獻(References):
[1] Yao Y Y. Three-way decisions with probabilistic rough sets[J].Information Sciences, 2010.180(3):341-353
[2] Yao Y Y. The superiority of three-way decisions inprobabilistic rough set models[J]. Information Sciences,2011.181(6):1080-1096
[3] 于洪,王國胤,姚一豫.決策粗糙集理論研究現狀與展望[J].計算機學報,2015.38(8):1628-1639
[4] 劉盾,李天瑞,李華雄.粗糙集理論:基于三支決策視角[J].南京大學學報(自然科學版),2013.49(5):574-581
[5] Pawlak Z. Rough Sets[J].International Journal of Computer?and Information Sciences,1982.11(5): 341-356
[6] Pawlak Z, Wong SKM, Ziarko W. Rough sets: Probabilistic?versus deterministic approach[J]. International Journal of Man-Machine Studies,1988.29(1):81-95
[7] Yao Y Y. Decision-theoretic rough set models[J]. LectureNotes in Artificial Intelligence,2007.4481:1-12
[8] Nauman M, Azam N, Yao J T. A three-way decisionmaking approach to malware analysis using probabilistic rough sets[J]. Information Sciences,2016.374:193-209
[9] Chen Y F, Yue X D, Fujta H. Three-way decision support?for diagnosis on focal liver lesions[J].Knowledge-Based Systems,2017.127:85-99
[10] Fernandes V, Yevseyeva I. Méndez J, et al. Emmerich.A spam filtering multi-objective optimization study covering parsimony maximization and three-way classification[J]. Applied Soft Computing,2016.48:111-123
[11] Li H X, Zhang L B, Huang B, et. al. Sequentialthree-way decision and granulation for cost-sensitive face recognition[J].Knowledge-Based Systems,2016.91(C):241-251
[12] Yager R. Generalized OWA aggregation operators[J].Fuzzy Optimization and Decision Making,2004.3:93-107
[13] 潘玉駒,何毅,陳文遠.高校學生綜合素質評價結果的處理機制研究[J].教育發展研究,2011.31(7):77-80
[14] Hu Q H, Yu D R, Xie Z X. Neighborhood classifiers[J].Expert Systems With Applications,2008.34(2):866-876
[15] 胡清華,于達仁,謝宗霞.基于鄰域?;痛植诒平臄抵祵傩约s簡[J].軟件學報,2008.19(3):640-649
[16] Hu Q H, Pedrycz W, Yu Daren, et al. Selecting discreteand continuous features based on neighborhood decision error minimization, IEEE Transactions on Systems, Man, and Cybernetics: Systems,2010.40(1):137-150