李志強,余炫樸
(江西財經大學 統計學院,江西 南昌 330013)
隨著我國社會、經濟的不斷發展,信用逐漸融入生活中的方方面面。誠信不僅是中華民族的傳統美德,而且是我國社會主義核心價值觀中公民基本道德規范的重要內容。《社會信用體系建設規劃綱要(2014—2020年)》明確指出,社會信用體系是社會主義市場經濟體制和社會治理體制的重要組成部分。近年來,我國高校中的學術不端、考試舞弊、校園非法借貸、證書造假等現象屢見不鮮,其部分案例對社會造成了嚴重的負面影響。因此,建立以大學生為主體的學術信用評價體系是維持社會經濟穩定運行和高校健康發展不可或缺的重要環節。中共教育部黨組和共青團中央聯合印發了《關于在各級各類學校推動培育和踐行社會主義核心價值觀長效機制建設的意見》,該意見明確指出,我國將建立健全內容包含學業誠信、學術誠信、經濟誠信、就業誠信在內的大學生誠信檔案。2020年5月,教育部數據顯示,2019年全國各類高等學校在學總規模達4 002萬人。大學生已然成為不可忽視的重要社會群體。所以大學生學術信用研究不僅是我國高校急須面對的重要課題,而且是保障我國未來社會穩定發展的基本要求。
我國大學生學術信用研究尚處于萌芽期,以往學者們普遍認為學術失信行為多發生在高校教師群體。目前越來越多的大學生參與學術研究,所以大學生學術誠信教育及其相關研究應得到重視。但在現階段,與我國大學生學術信用研究相關的內容大多圍繞大學生誠信建設與學業信用研究。于俊如、徐世強認為入世后誠信是現代市場經濟條件下對大學生人格前提的基本要求[1]。江陽剛在對大學生誠信問題現狀的調查與分析中發現,樣本中15.7%的被調查者對他人缺乏信任感,66.9%的被調查者對身邊的人信任感一般[2]。喻名峰、陳成文、李恒全在回顧2001年至2011年大學生就業問題時指出,大學生就業誠信問題是導致“就業難”的原因之一[3]。王藝對近15年我國青年信用建設相關政策性文件進行了梳理,共有34項相關文件及報道,具體數字見表1。經過梳理后得出結論,這些相關政策文件內容主要針對信用管理與體系的建設及守信激勵和失信懲罰兩個部分[4]。

表1 近15年我國青年信用建設相關政策性文件
目前,我國的大學生學術信用工作尚處于誠信檔案建設階段,大學生信用評價體系的建設也在不斷探索與完善中。不同于金融領域的信用,大學生信用指的是以學業信用為主體,并與社交信用、經濟信用一起共同組成的信用體系。因此,大學生誠信建設不僅記錄了大學生在學校內的誠信信息,而且記錄了其在校外活動中所產生的信用狀況。這些大數據都可用于大學生的信用及核心素養評估[5]。正因為大數據與通信技術上的不斷突破,互聯網數據與線下數據的相互補充為完善個人信用信息創造了巨大的可能性。盡管如此,我國大學生誠信建設與學業信用研究還存在著以下問題:
無論是大學生誠信檔案建設還是學業信用研究,若按照大學生信用信息發生的地點分類,可以分為校園內信用信息與校園外信用信息。校園內信用信息通常指的是學業信用,但包含了校園內發生的社交信用與經濟信用,如與同學間的經濟不誠信、學費拖欠、校園活動中的不誠信行為等。若按照信息自身特質分類,大學生信用信息可以分為學業信用、社交信用、經濟信用等。這些類別的信息通常由不同主體進行收集,如學業信用信息及相關檔案被保存于網絡社交軟件中,而經濟信用信息則是由相關金融機構收集的。因此,無論從地點還是特質分類,大學生誠信建設中需記錄的信用信息種類十分繁雜,獲取大學生完整的信用記錄難度大。
數據平臺壁壘指的是不同平臺的數據由于法律法規的限制無法進行信息互通。如上所述,大學生信用建設中的數據通常包含學業信用、社交信用與經濟信用,這三類信用數據收集平臺為高校、社交平臺與金融機構。平臺不同其監管部門也不一致,這就導致了不同平臺間數據互通困難的現象。
數據結構壁壘指的是數據自身結構之間相互轉化較為復雜。大學生信用數據通常分為結構化數據與非結構化數據,結構化數據可以表現為二維形式的數據,非結構化數據則是沒有固定結構的數據,它可以是文本、圖片、音頻及視頻等數據。在大學生信用數據當中,學業信用數據與經濟信用數據均為結構化數據,社交信用數據由于其多樣化特點一般為非結構化數據。將這些非結構化數據轉換為結構化數據后才能有效地對大學生信用進行評價。
成本壁壘指的是實現數據互通所需成本較高。這些成本包含了數據收集、篩選、處理的成本,出臺相關法律法規產生的成本,以及數據結構間轉化的成本。隨著通信技術與計算機技術的不斷發展,大數據技術應用愈發廣泛,這為大學生信用數據互通提供了良好的技術基礎。在實踐應用中,由于政策、技術、經濟等相關因素的制約,學業信用、社交信用與經濟信用間的數據互通還未能完全實現。
2019年,國務院辦公廳印發了《關于加快推進社會信用體系建設構建以信用為基礎的新型監管機制的指導意見》,該意見在信用監督建設方面提出了六項目標:健全失信聯合懲戒對象認定機制;督促失信市場主體限期整改;深入開展失信聯合懲戒;堅決依法依規實施市場和行業禁入措施;依法追究違法失信責任;探索建立信用修復機制。近年來,我國多地在信用聯合懲戒方面取得了一定的成效,基本實現了失信人“一處失信,處處受限”。信用聯合懲戒彌補了信用治理中的部分缺陷,提升了信用治理效率,但在復雜的失信情景中,懲戒措施常常忽略了其關聯性原則與比例性原則[7]。在信用修復機制建設方面,我國納稅信用管理體系的核心內容分為失信懲戒與守信激勵,就目前我國信用建設情況而言,守信激勵機制的建立還有所欠缺,一定程度上導致了征納關系的失衡不能得到及時矯正,從而造成了“雙輸”的局面[8]。
大學生群體的特殊性使信用獎懲制度建設比納稅信用中的懲戒與激勵制度建設更困難。盡管如此,在國家的號召與政策的指導下,我國高校在建設大學生信用獎懲制度方面不斷探索。2019年10月我國某高校(以下簡稱A校)發布了《本科學生誠信評級獎懲制度(試行)》。該獎懲制度分為信用減分與加分信用兩部分。在信用懲戒制度的建設中,A校將誠信行為種類分為六個項目,分別是學業誠信、生活誠信、經濟誠信、就業誠信、網絡誠信、安全誠信。這些項目下又含有15個評價內容與45個信用評價指標。A校在懲戒制度上采用了扣分與信用降級的綜合性懲戒方式,但在信用獎勵中只簡單地羅列了參加校內外活動、參加科研類活動、校內外榮譽獎項、學風幫扶工作及參與集體榮譽建設五項內容。而其他高校的信用激勵制度建設還停留在取消處罰、處分等基礎激勵手段層面。由此可見,大學生信用獎懲制度建設存在與納稅信用中同樣的問題,信用激勵建設與信用懲戒建設發展失衡。
解決現階段大學生學術信用管理中存在的問題是一項需要長期研究的課題,其內容包括信息技術、統計學與社會學等多學科交叉。本文基于現有的大學生信用相關研究,結合大數據技術與統計學方法,為平衡大學生誠信建設中獎懲制度提供客觀的、可靠的評價依據。多元線性回歸分析是統計學經典的方法之一,是根據因變量與多個自變量的實際觀測值建立因變量對多個自變量的線性回歸方程[9],也是常用的分類器之一。大學生學術失信預測是典型的二分類問題,是根據大學生各項信用狀況對大學生產生學術失信可能性的預測。此類樣本集數據通常不具備正態分布的特點,因此大學生學術失信預測模型中的分類器采用線性邏輯回歸分析(LR)。大學生學術失信樣本數量一般遠遠小于守約樣本,數據集通常表現為不平衡狀態。合成少數類過采樣技術(SMOTE)是一種解決類別分布不平衡分類問題的抽樣方法。該算法的核心思想是:對于每個少數樣本,從這個樣本的最鄰近隨機選擇一個樣本,在這兩個樣本之間的連線上隨機選擇一點便是合成的新樣本。薛薇采用SMOTE算法對非平衡數據集進行再抽樣處理后得到新的數據集。實驗表明,分類器在新的數據集的正負兩類上均可獲得理想的分類效果[10]。衣柏衡等將改進后的SMOTE算法用于某小額貸款公司客戶信用風險評估案例中,其分類精確度有所提升[11]。Chetna Kumari等運用SMOTE算法處理生物活性數據中的類別不平衡問題[12]。因此,本文基于SMOTE-LR來設計大學生學術失信預測模型,根據預測結果能夠判斷大學生學術信用狀況的好壞。
大學生學術失信預測研究離不開信用評價的發展,而評價指標體系是綜合評價中的重要內容。蘇為華認為,評價指標體系理論應包括構建原則、構建方法、測驗方法、優化方法、單項指標設計方法、指標變換理論和定性變量的數量化技術六個方面[13]。如上所述,大學生信用評價體系的構建與場景應用尚處在探索階段,國內眾多學者都嘗試構建、優化大學生信用評價指標體系。侯雨欣、王沖運用德爾菲法與因子分析相結合的方法確立了一套大學生信用評價的指標框架,該指標框架包含學業信用、經濟信用、生活信用與社會信用四個維度,具體評價指標內容見表2[14]。該框架的提出對建設我國大學生信用評價體系有著積極的作用。依據蘇為華提出的構造綜合評價指標體系的全面性原則、科學性原則、層次性原則、目的性原則與可比性原則[13],此評價指標體系設置合理,具有一定的現實指導意義。盡管如此,表2所示的大學生信用評價指標在可行性方面還需進行進一步的驗證,如三級指標中I16信用數據是由相關金融機構進行記錄的,而借貸記錄是信用評價指標中不可忽略的內容;I26“愛占便宜”是由被評價個體的同學及老師提供的信息,而這類信息帶有很強的主觀性。

表2 基于德爾菲法與因子分析的大學生信用評價指標
基于侯雨欣等的大學生信用評價指標,本文結合調查對象所在學校的實際狀況、綜合評價的可行性及觀測效果,對大學生學業失信預測模型的設計與優化進行進一步的信用評價指標合并與篩選[14]。在調查對象所在的高校,I7與I8經常是作為一項數據進行統計,故將其合并為“篡改實驗數據或研究結果”;I11與I12中的“無故逾期”與“惡意拖欠”無法準確界定,故合并后更改為“逾期繳納學費的情況”;I13與I14因為在表2中是在“學費貸款”二級指標中,故將其修改為“逾期償還助學貸款”;I17因為處在“個人消費”二級指標中,應區分于二級指標“學費貸款”,故將其與I16合并為“不良校外信貸記錄”;I20、I21與其他指標存在較多重合,故在此刪除;I23與I24在調查統計時存在較大重合面,故將其合并為“與朋友、同學相處,不守時、不守約定”;I26主觀性較強,故明確了“愛占便宜”的具體事項,更改為“與同學、朋友相處,在經濟條件良好的情況下,集體社交活動中,經常使用他人物品或錢財”;I27、I28中提到“擔任學生干部”,調查對象是高校大學生,并不是高校學生干部,故分別將其更改為“老師對你的不良評價”與“同學對你的不良評價”;I30與I31在調查對象所在高校均為實踐與課外活動,故將其合并為“在實踐與課外活動中,你的不良評價”;在二級指標“求職信用”中,調查對象均為在校大學生,故將原本三級指標更替為“評選學生干部,簡歷中存在虛假信息”“尋找兼職與工作時,簡歷中存在虛假信息”“尋找兼職與工作時,隱瞞學校處分”與“在兼職與實習中,提前結束實習”。最終,大學生信用評價指標共涉及4項一級指標與25項二級指標(見表3)。
首先,重點發展傳統專業。傳統專業是高職學校從建校以來在此方面就一直很有建樹的專業,在長期的教學過程中,不但有專業師資隊伍,還形成了獨特的培養模式。對此,高職學校就應該在自己優勢專業的基礎上,迎合時代發展潮流,繼續增強優勢專業的社會地位,讓優勢專業成為學校的名片,在此基礎上廣泛吸收社會各種資源,從而進行其他專業的開設。

表3 大學生信用評價指標
構建大學生學術失信預測模型的現實意義是:根據大學生的社會信用、經濟信用、生活信用與學業信用中的各項信用狀況,判斷其產生學術失信行為的可能性,結果表示大學生學術信用狀況的“好”與“壞”。為了了解在校大學生信用狀況及獲得大學生學術失信預測模型的數據,根據大學生信用評價指標中的25項二級評價指標,設計了大學生信用狀況調查問卷,調查問卷共25個選項,要求填寫人填寫是否存在二級指標中闡述的信用狀況,或“是”或“否”。問卷中不出現任何個人信息以保證問卷內容的真實性及隱私性。完成調查問卷設計后,向南昌師范學院本科在校生發放了1 000份調查問卷,共回收948份有效的、完整的調查問卷。
首先,對回收的調查問卷進行編輯,問卷中選擇“是”的標記為“1”,選擇“否”的標記為“0”,編輯后為原始樣本集,其現實意義解釋為:“1”代表在該項評價指標下,被調查對象存在失信行為;“0”代表在該項評價指標下,被調查對象不存在失信行為;其次,在構建失信預測模型前,需對樣本集A進行數據處理。因為學術誠信主要體現在考試、實驗、論文及其他科學研究,因此,在大學生信用評價的25項指標中,“學校記錄的考試違紀”“篡改實驗數據或研究結果”“論文(包含課程論文及作業中的小論文)中直接抄襲他人學術成果行為”“科研經費與資源不當使用”屬于學術失信行為,這四項指標將作為判斷學業是否存在學術失信行為的標準。數據處理具體操作為:對單個樣本中的“學校記錄的考試違紀”“篡改實驗數據或研究結果”“論文(包含課程論文及作業中的小論文)中存在直接抄襲他人學術成果行為”“科研經費與資源不當使用”數據進行算術相加,若結果等于0,那么記作結果“0”,若結果大于0,那么記作結果“1”,這些算術相加后的數據結果記在新變量“學術失信”下。其現實意義解釋為:只要樣本個體存在考試違紀、篡改實驗數據或研究結果、論文(包含課程論文及作業中的小論文)中存在直接抄襲他人學術成果行為、科研經費與資源不當使用的任意一項行為都將被認為是學術失信。處理后的數據記作樣本集A。在樣本集A中共有118人存在學術失信行為。最后為了確認樣本集A的可靠性,對樣本集A進行問卷可靠性信度分析,可靠性分析采用SPSS25.0軟件對調查數據進行研究,其具體結果見表4。Cronbachα系數為0.806,大于0.8,證明樣本集A信度質量高,可以用于下一步模型的構建。

表4 樣本集A可靠性分析
在線性邏輯回歸的函數表達式中(公式1.1),p表示結果為“1”發生的概率,也就是大學生學術失信的概率。1-p表示結果為“0”發生的概率,β表示需估計的模型參數,而在個人信用評分的應用中,p是最終需要計算的概率[15]251-266。
(1)
為了便于模型的設計與檢驗,將樣本集中的22個變量處理后得到新的樣本集B:Y學術失信;X1無故遲到;X2無故早退;X3老師記錄的課程作業抄襲;X4圖書館不良借還記錄;X5逾期繳納學費的情況;X6逾期償還助學貸款;X7隱瞞家庭真實情況,申請助學貸款、助學金等學校資助;X8不良校外信貸記錄;X9虛報信息向家長索要“考試費”等費用;X10缺席學校內任何集體活動;X11向家長隱瞞或謊報成績或處分的行為;X12與朋友、同學相處,不守時、不守約定的行為;X13與朋友、同學相處,借物不還;X14與同學、朋友相處,在經濟條件良好的情況下,集體社交活動中,經常使用他人物品或錢財;X15老師對你的不良評價;X16同學對你的不良評價;X17在實踐與課外活動中,你的不良評價;X18評選學生干部,簡歷中存在虛假信息;X19尋找兼職與工作時,簡歷中存在虛假信息;X20尋找兼職與工作時,隱瞞學校處分情況;X21在兼職與實習中,提前結束實習。Xn代表大學生的各類信用狀況,Y代表大學生是否存在學術失信行為。根據公式(2),LR方程表達式如下:
(2)
將樣本集B采用Python3.7軟件實現LR分類,得出分類效果:F1_score:0.352;Accuracy_score:0.884;Recall_score:0.257;Precision_score:0.562;AUC:0.73。盡管AUC大于0.7具有一定的準確性,但是召回率分數與F1分數均小于0.5,分類效果并不理想。通過對樣本集觀測發現,學術失信樣本只占總樣本的12.45%,因此考慮樣本分布不均衡導致的分類效果不佳。為了解決樣本分布不平衡的問題,采用Python3.7軟件對樣本集進行SMOTE算法。采用Python3.7軟件對樣本集B進行SMOTE算法,糾正樣本不平衡后,得到樣本集C,共1 660項數據。樣本比例見圖1。

圖1 樣本集“0”“1”比例
將得到均衡比例的樣本集C運用Python3.7軟件,實現LR分類,得出分類效果:F1_score:0.720;Accuracy_score:0.748;Precision_score:0.813;Recall_score:0.647;AUC:0.783。對比樣本集B得出的分類效果、ROC曲線和AUC(如圖2)發現:F1、召回率與精確度分數得到了顯著的提升,AUC分數也得到了7.2%的提升,該模型分類的準確性得到了一定的提升。準確率分數有所下降是因為樣本均衡后,結果為“0”的樣本比例下降,結果為“1”的樣本比例增加后帶來的準確率變動。最終SMOTE-LR模型下的失信預測模型表達式為:

圖2 ROC曲線與AUC對比
ln(p/1-p)=-0.883+1.048*X1-0.399*X2+2.270*X3+1.942*X4-1.318*X5-22.993*X6-20.623*X7-2.424*X8-0.112*X9+1.687*X10+0.277*X11+0.593*X12+0.706*X13-0.487*X14+0.711*X15-1.547*X16+0.843*X17-1.498*X18-0.941*X19-1.372*X20-1.609*X21
SMOTE-LR模型是根據大學生學業信用、經濟信用、生活信用與社會信用的狀況,對大學生發生學術失信的可能性進行預測,是管理大學生學術誠信問題行之有效的辦法。在大學生信用建設工作中,預測模型能夠幫助高校教師動態地掌握大學生產生學術失信的可能性,從而及時對“高風險”的大學生采取必要的教育措施。在其他場景應用中,SMOTE-LR模型是反映大學生學術誠信狀況的有效方法之一,為社會中其他活動提供了對大學生在道德品質上科學的、客觀的評價。
《國家中長期人才發展規劃綱要(2010—2020年)》明確指出,人才是我國經濟社會發展的第一資源。大學生作為我國青年主力軍,亦是未來各行各業中的人才儲備。大學生信用評價得出的評價等級代表其在大學期間的誠信質量等級,評價等級越高表示其誠信度越可靠。董博在對中國人才發展治理的相關研究中認為,“人才”“人才發展”“人才發展治理”是三個逐層遞進的概念[16]。人才的挖掘與發展是人才強國的有效方法,而做好人才發展治理是我國社會穩步增長的需要,是建設中國特色社會主義社會的重要保障。我國現階段的經濟制度是以公有制為主體,多種所有制經濟共同發展。在這種經濟制度下,誠信是我國優秀人才必備的首要條件,是保障我國經濟穩定發展的重要因素。2018年2月,國務院辦公廳印發了《關于分類推進人才評價機制改革的指導意見》,該意見指出我國在人才評價方面存在諸多問題,如標準單一、評價方法趨同、分類評價不足等。該意見還強調了分類健全人才評價標準需突出品德評價,品德是人才評價的首要內容。
教育部最新公布的數據顯示,2020年碩士研究生報名人數達到341萬人。自2015年起,全國考研報名人數急劇增長,由此可見,越來越多的大學生在面對社會高層次人才需求的壓力下選擇提升自身的學歷。隨著高學歷的人群越來越多,學術造假、考試作弊等事件頻頻發生。高學歷考試是以考生誠實守信為基本前提考察考生的學業、科研水平。在以往的學歷考試中我國高校及研究機構在考試中采取各種措施防止考生作弊,如由于疫情原因,2020年全國高校在研究生及以上學歷的考試和面試中采用遠程考核方式,為了保證考試的公平性,大多數高校采用了雙機位甚至是三機位的監控方式。在通常情況下,這些方法在選拔過程中是非常有效的,但對通過了考試的學生卻無法起到任何的約束作用。因此,全國高校將大學生信用評價等級納入入學考核體系,一定程度上能夠降低通過學歷考試后學業失信事件發生的概率,是保障我國科學研究健康發展的有效方法。
我國現階段,政府主導型的征信機構占絕對優勢。社會征信體系是由征信立法系統、征信監管體系、征信服務行業、失信懲罰機制與人才培養模式五個子體系構成的[17]。個人征信主要是對個人信貸信息進行收集及處理。大學生學術信用研究中的各項信用數據是對我國個人征信數據收集的補充,尤其是未產生信貸記錄的人群。金融行業中貸款的發放是根據已產生的金融活動信息或者其資產狀況,大數據信貸則在此基礎上還需考核社交及其他非金融活動狀況。大數據時代,以ZestFinance公司為例,其個人信用評價指標多達幾萬個,而這些指標數據來源于互聯網活動、第三方數據以及用戶自身提交的數據[18]。大學生誠信檔案數據及大學生個人信用評價等級作為信貸活動中個人信用評估所需的第三方數據,是對金融業個人信用評分體系的添補,是完善我國個人征信體系的重要環節。
基于以上研究,筆者對于未來大學生學術誠信建設提出以下建議:(1)政府設立專職部門。我國高校在大學生信用建設方面各有建樹,無論是對完善大學生信用檔案的建設還是對信用評價的探索,都已經取得了初步的成效。我國高校數量龐大,不同高校所處地理位置及辦學定位不盡相同,具有一定的地域性、方向性及專業特色性。設立專職部門對我國大學生信用建設進行統籌規劃,將會降低上述因素對學術信用評價的影響,同時能夠加快我國大學生學術誠信建設的步伐。(2)行政機構聯合行動。通過對我國大學生誠信建設及學業信用的探究,數據壁壘與獎懲制度失衡是現階段面對的主要問題。聯合政府各職能部門對大學生信用數據進行采集,不僅能打破數據壁壘,還能為高校及學者在今后的研究中提供更多真實可靠的樣本數據,從而大幅度地提升研究效率。在獎懲制度建設方面,我國聯合行動實例已不勝枚舉,一定程度上改善了我國的失信問題。為了完善該項制度,優化行政機構聯合行動的具體方針政策將是未來研究重點。(3)加強思想道德教育。我國高等教育在學總規模每年都在不斷擴大,2019年該項數字已經超過4 000萬人。面對如此龐大的人群,加強大學生思想道德建設必須放在首位,這也是保障大學生健康發展的基本。習近平總書記在紀念五四運動100周年大會上說,“青年的理想信念關乎國家未來”。堅決把增強“四個意識”、堅定“四個自信”、做到“兩個維護”融入大學生思想道德建設中,是大學生學術誠信建設最有效的途徑。