文/段光強 楊春明 張暉
隨著人民生活水平不斷提高,社會生活方式呈現多樣化,人們的價值觀受到了嚴重的沖擊,社會上制假販假現象日益突出,出現了一定程度上的信用危機。這種現象逐漸蔓延到社會的各個角落,其中信用危機在高校也有不同程度的反映,使得我國高校大學生誠信教育遭到嚴峻挑戰。因此,深入研究高校學生的信用評價體系,建立科學的高校學生信用評分系統也愈顯其重要性,對于學校的發展、學生個人的成長乃至對整個社會的推動和促進都有著重要的意義。
目前,個人信用評分模型主要是運用在放貸機構評估貸款人是否違約,為是否貸款提供預測,減少放貸機構的不良貸款帶來的損失,增加正確放貸帶來的利益。經過幾十年的發展,從最早的Fisher(1936)提出將總體按照不同的特征成分劃分成不同的組的方法,到20世紀60年代信用卡的出現和快速發展,也影響個人信用評分模型的快速發展[1]。現在大多數學者使用基于統計和機器學習的方法構建信用評分模型,20世紀90年代以來,常見的模型有線性判別分析、邏輯斯蒂回歸、決策樹、樸素貝葉斯、神經網絡、支持向量機、隨機森林、提升樹等[2]。近幾年信用評分模型發展趨勢和熱點是組合型信用評分模型,將多種信用評價模型串行組合、并行組合或者通過bagging或者boosting等算法產生多個訓練集,使用不穩定分類算法在數據集上建立模型,最終將結果適當的組合在一起。實驗結果表明,組合模型能夠有效的提高信用評分模型的精確性和穩定性[3]。
在個人信用評分中少有把高校學生當作受評價人群,王勤[4]提出了一套基于遺傳算法和神經網絡的高校大學生個人信用評價模型,通過調查表方式收集到的數據,數據的準確性和完整性有待提高和完善。為收集到高校學生真實、多方位、全面的信用數據,通過和西南科技大學信推辦合作,收集到了近四年學生的基本信息、在校信息、繳納學費、成績、獎學金、勤工助學、繳納貸款、違紀情況、一卡通消費記錄、圖書館借閱和進出等多方面信息,同時采集集學生在貼吧微博等發表的言論信息作為補充。力爭收集到學生的全面信用數據,使信用評分模型更加準確。
高校信用評分系統的主要由三部分組成,數據采集與融合系統、信用評分系統、信用業務系統。
數據采集與融合系統主要完成信用數據的采集、存儲、實體鏈接、沖突解決、深度知識發現。整體流程為:(1)從不同數據源(教務處、學工部、財務處、圖書館、一卡通、公寓中心、貼吧和微博等)采集到不同格式的數據;(2)將采集到的數據以Key-value鍵值對形式存儲在分布式MongoDB數據庫;(3)以學號作為學生實體唯一標識符,將同一學號的所有數據鏈接在一起,并刪除重復的屬性值;(4)解決第三步中存在同一屬性具有多種不同的值或者多種名稱的沖突問題;(5)結合先驗知識,通過推演、關聯分析等方法發現隱藏的深度知識。
信用評分系統主要將數據采集與融合系統得到的數據通過信用評分模型計算出每個學生的信用評分,并將評分結果存儲在MySQL數據庫中。
信用業務系統主要提供信用評分的展示和可視化功能。對學生用戶主要提供登錄、信用自查、守信記錄和失信記錄的展示、信用報告生成、提交信用佐證、信用問卷調查、信用小測試等功能。對輔導員等學生管理者提供信用查詢、信用預警(通過設置閾值,信用評分低于閾值的學生將高亮顯示)、信用佐證審核、信用調查問卷添加等。
高校信用評分系統的系統架構如圖1所示,系統會隨新數據的到來或者設置的固定時間節點,實時更新信用評分,保證信用頻分的準確性和實時性。

圖1 系統架構圖
數據沖突是在多源數據融合過程中,不同數據源對同一屬性具有多種不同值的情況。“數據融合”最早出現在軍事上,將戰場上的多種傳感器采集到的數據處理、融合,得到有用的戰場信息。隨著工業的飛速發展,工業系統的復雜化和智能化,數據融合得到飛速發展[5]。數據融合根據融合層次分數據層、特征層和決策層[6]。為實現大數據融合,各領域出現了多種融合方法,但普遍采用3V(海量、高速、類型多樣)特征下的集成方式,其需要的關鍵技術包括本體對齊技術、實體鏈接技術、沖突解決和關系推演等[7][8]。在高校信用數據融合過程中主要問題就是沖突解決。
在現有的沖突解決研究中,傳統方法有基于貝葉斯模型、D-S證據理論和模糊集理論,近幾年提出了基于圖模型的方法[9]。雖然這些方法都在一定程度上增加了知識的確定性,減少了錯誤知識,提升了知識的置信度和可靠性,但很多數據或知識是隨時間變化而變化,由于更新時間不一致、人為因素或者非人為因素,從不同的部門獲取到的數據可能存在沖突和不一致的情況,上一個時間段正確的數據,下一個時刻就可能變成錯誤的[10]。例如在高校學生信用數據中,學生S從專業a轉到專業b,教務處系統的信息已更新學生S的專業為b,但學工等其他系統學生S的專業信息仍然為a。現有的知識沖突解決方法缺乏對時間維度的考慮,無法適應隨時間動態變化的知識沖突問題。因此提出一種添加了時間信任函數mt()的D-S證據模型。
D-S證據理論的基本原理:
設Θ是一個識別框架,基本概率分配:Basic Probability Assignment,簡稱BPA。在識別框架Θ上的BPA是一個2Θ→[0,1]的函數m,稱為mass函數。并且滿足:

其中,使得m(A)>0的A稱為焦元(Focal elements)。信任函數Bel(A)定義為:
故Bel(A)為A的信任程度,Pl(A)表示對A的非假的信任度[9],對于? A ?Θ,識別框架Θ上的有限個mass函數m1, m2, ..., mn的Dempster合成規則為:

其中K為歸一化常數:

令tA為焦元A在一個數據源當前最近一次的更新時間節點,由于不同的數據源可能產生多個tA,選取其中離當前時間最近的tA1作為TA2,令時間信任函數mt()滿足,當TA1≥TA2:

故改進后的合成規則為:

其中Kt仍然為歸一化常數:

其實合成規則的本質并沒有變化,修改后的合成規則相當于添加了一個時間數據源,把時間這一因素加入到合成規則中,以適應隨時間變化而變化的數據。以學生S轉專業為例,如表1所示,其中Belt()為添加了時間信任函數的信任度。

表1 證據結果
由表1 可知兩次得到的結果完全相反,傳統DS推斷出來學生S專業為a,添加時間因素的DS推斷出學生S的專業為b,故增加時間信任函數mt()后,提升了對隨時間變化的數據融合的準確率。
近兩年信用評分的研究熱點是針對信用評分原始數據的類別不平衡問題,即由于前期的篩選導致“好”客戶的數量多于“壞”客戶的數量,收集到的信用數據中“好”客戶和“壞”客戶分布就與原始數據空間分布不一致。陳啟偉[2]等人提出從“好”客戶(大類)中隨機采樣多份與全部“壞”客戶(小類)等量的樣本,分別與全部小類構成訓練子集,然后用提升樹模型訓練,再把不同的數據集產生結果的均值作為最終結果。邵良杉[12]等人提出一種改進過采樣算法解決類別不平衡問題。然而高校信用數據其不存在收集到的數據類別不平衡問題,因為能收集到所有學生的信用原始數據,所以這些模型具有的參考價值并不大。
1.模型選擇
雖然在個人貸款方面的信用評估算法模型已經很多,然而針對大學生這一特殊群體的評價模型寥寥無幾。經調研發現,信用評分模型頂層都是按比例分配不同權重到受評人的各個方面,以收集到芝麻信用、卡友、FICO(美國個人消費信用評估公司)的信用評分占比為例,如表2所示。
參考上面三種評分比例,以及信用也是動態變化和高校學生學期學年等特性,提出層次分析模型+“最近最有效”[4]原則的綜合評價方法。
2.層次分析模型

表2 信用評分結構

圖2 評分維度及影響因素
層次分析法(The analytic hierarchy process)簡稱AHP,是上世紀70年代由美國運籌學家托馬斯·塞蒂(T.L.satty)正式提出。它是一種定性和定量相結合的、系統化、層次化的分析方法[13]。根據遞階層次結構定義,本文建立了一種高校學生信用評分模型為3層:最高層目標層O,中間層是維度層D(含五個維度,分別為信用歷史、行為偏好、學習狀況、身份特征、社交信息),最下層是影響因素F(含26種影響因素)。圖2 是信用評分的五個維度,以及其下層影響因素。
令學生當前學年信用評分為T,行為偏好T1、社交信息T2、學習狀況T3、身份特征T4、信用歷史T5。綜合芝麻信用、卡友、FICO的信用評分占比,以及高校學生特點,五個維度的占比如下:

評分過程主要分3個步驟:(1)對每一個維度的所有影響因素的重要性兩兩比較,構造兩兩比較判別矩陣;(2)計算被比較的因素在對于該維度的相對權重;(3)對矩陣進行一致性證明,如果不符合,則重新構造判別矩陣[13]。最終根據每個影響因素的相對權重和每個維度的權重,計算出學生當前學年的信用評分。
3.最近最有效原則
“最近最有效”是指在信用評價中,不能完全忽略一個人的過去,也不能將其過去表現與現在表現等同視之[14],故當前學年信用評分所占權重應該更大。令i為學生的年級,為學生第i學年的信用評分(若不滿一學年,仍然看做一學年),學生信用最終評為為S。當i=1時,即大學學生S=N1,當i>1時:

當前學年的評分占總評分的60%,前一年的總評分占40%。這樣既重視學生當前信用狀況,也考慮了學生以前的信用情況,實現更全面的評估學生的信用狀況。
由于收集到的數據都是未標注數據,且評分系統才開始運行,也無法通過時間檢驗,得到評分模型準確率[15]。為了檢驗信用評分模型的準確率,將有違紀作弊、未按時繳納學費、貸款等嚴重失信記錄的同學標記為類別a;將未違紀且獲得學業獎學金、國家勵志獎學金等較權威的正面評價記錄標記為類別c,按時繳納學費、助學貸款、按時歸還圖書等守信記錄超過30條的也標記為類別c。其余同學則標記為類別b。由統計結果發現,在收集到的3萬多學生中,屬于類別a的只有276例,屬于類別c的共有1438例,其余均為類別b。本系統的信用評分所屬區間如表3所示。

表3 信用評分區間
信用評分小于550的為類別a,評分屬于550到699區間的為類別b,評分大于或等于700的為類別c。通過標記類別與評分模型得到的類別比較結果如表4所示。

表4 評估結果
結果表明評分模型對類別a效果最差,其次是類別b。經過查看原始數據發現,在類別a錯誤判斷的63個人中,多數為是大三大四學生,其中多數人是在大一的時候未及時繳納學費等原因,導致被標記為類別a,由于模型最近最有效原則,導致其評分并不屬于a類。在b類判斷錯誤的人群中,大部分是誤判斷為類別c,雖然判斷錯誤,主要原因是未獲得學業獎、國家勵志獎等并不能判定其信用不是極好的,也可能是30條守信記錄設置太高,學費和助學貸款正常情況下一年才一至兩條記錄,基本要到圖書館按時歸還圖書20多次,有一部分同學喜歡在自習室和寢室學習,并不喜歡在圖書館學習和借書。綜上,由于標記的準則上存在一定的問題,按實際情況準確率應該高于87.51%。
本文研究并實現了高校學生信用評分系統,解決了高校學生信用評分系統基本空白的現狀。針對高校信用數據融合中,數據沖突問題提出了增加時間信任函數的DS證據理論,根據高校學生這特定群體提出了“最近最有效原則”+層次分析的評分模型。為大學生的誠信教育、助學貸款和獎學金評定等提供了重要的參考價值。