魏金婷,陶俊清,郝明洋,羋凌佳,田順利,嚴 軍,李 靜
(a. 紡織學院;b. 學生處;c. 統戰部;d. 科技成果轉化中心;e. 人文學院;f. 學生就業服務中心;g. 理學院,上海 201620)
高校家庭經濟困難學生的資助工作作為國家整體扶貧工作中的重要部分,受到社會各界的高度關注。習近平總書記多次強調,扶貧工作要在精準扶貧、精準脫貧上下更大功夫。這也為高校開展家庭經濟困難學生的資助工作指明了方向。國家資助政策在高校落實的過程中,家庭經濟困難學生的認定工作是精準扶貧的第一步。然而,家庭經濟困難學生群體的家庭情況是不斷變化的動態過程,原有評價因素的設置、認定方式的確定還存在著一系列問題,尚未形成一套相對科學、精準的認定機制和評價體系。大數據技術作為當今計算機領域最前沿的技術,其核心價值在于通過數據挖掘、應用等技術環節,從多樣化的海量數據中快速獲得高價值的信息[1],為高校開展家庭經濟困難學生的精準認定工作提供了新的思維、視角和方法,為確定評價因素、構建評價體系提供數據印證和科學預判,使家庭經濟困難學生的認定工作更加精準。
目前,不少高校家庭經濟困難認定以家庭人均月收入作為主要認定指標,通過與當年最低生活保障標準作比較判別家庭經濟困難等級。然而,家庭收入數據一樣的家庭可能由于地區差異、勞動力健康情況、家庭負債情況、固定資產等方面的不同造成家庭經濟能力的差距。城市居民最低生活保障標準與大學生教育費用負擔也缺乏科學的對標依據。認定指標簡單化的做法方便操作,卻不夠精準?!蛾P于進一步加強和規范高校家庭經濟困難學生認定工作的通知》(教財廳[2016]6號)指出,各高校要根據各地指導標準,結合學校所在城市物價水平、高校收費水平、學生家庭經濟能力等因素,確定家庭經濟困難學生的認定標準和資助檔次。高校分配資金和名額要把建檔立卡家庭經濟困難學生、農村低保家庭學生、農村特困救助供養學生、孤殘學生、烈士子女以及家庭遭遇自然災害或突發事件等特殊情況的學生作為重點資助對象。這對認定標準提出了更高要求,需要建立系統的認定指標,最大程度體現學生家庭經濟真實承擔能力。
在初次認定中,對高校家庭經濟困難學生的認定,一般是基于貧困證明、家庭情況調查表等各種生源地證明開展,認定信息來源比較有限,準確性和參考價值有待驗證。由于我國還未建立國家、社會、家庭層面的基礎收入數據庫,個人收入信息不透明,在實際操作中存在技術難題,比如家庭純收入難以精確測算、收入測定成本過高、難以全面實現等,所以,我國各高校在判斷學生的家庭經濟供給能力方面還存在諸多困難。[2]此外,從生源地相關部門認定到高校的判斷和認可,都有可能存在人為因素影響認定結果。高校經濟困難學生認定工作每學年進行一次,認定程序基本為:學生本人提出申請、認定評議小組民主認定、院(系)認定審核等。人為因素較多,也會導致基礎認定精準度降低。
《上海市高等學校家庭經濟困難學生認定工作指導意見》提出,認定工作須堅持實事求是,在學生本人提出申請的基礎上,實行民主評議和學校評定相結合的原則。這種方式要求學生要主動申請、多方認證,容易出現符合條件的學生因自卑心理不愿意申請或者因不了解資助政策錯過申請機會的情況。劉彥等[3]在《獨立學院學生資助育人工作的精準認定及精準資助探究》中提出:“大一剛入學學生,輔導員和班委對其都不是很熟悉,故無法做到精準認定,自然無從談起精準資助,這就導致作假的‘偽貧困生’的出現。”認定程序啟動方式被動化容易遺漏一些真正貧困的學生,也讓一些投機取巧的學生通過捏造證據、制造假象成為“偽貧困生”。這就需要最大限度獲取學生就學、生活的大量數據和可靠信息,方便篩選出真正符合條件的學生,由高校主動出擊,降低認定的錯漏率。
在高校開展家庭經濟困難學生的認定過程中,以上這些主觀、客觀存在的因素極易導致認定結果出現偏差、存疑或錯漏。欲實現認定的高效率、精準性,則需要依賴于認定信息的完善程度,依賴于認定標準的科學程度。大數據平臺的建設與聯通是進一步提高認定精度的工作方向。
當今世界,正在從數據時代走向大數據時代。[4]學生在校園中生活、學習、娛樂等所產生的數據狀態均能夠被客觀地采集和記錄,可以說大數據實時采集、面向所有個體,具有高度全面性和完整性[5]。通過這些海量、客觀、及時、準確的數據,資助部門可以持續觀測到學生經濟狀況的變化。相較傳統的數據倉庫,大數據擁有更為豐富、充足和客觀的數據,同時擁有更加精準的查詢、篩選和分析等技術,可以通過學生的用餐消費、網絡消費、話費消費等數據真實地反映學生的經濟狀況及生活狀態。大數據提供的這些真實客觀的數據資料,經過精確有效的科學運算,能夠得出精準認定所需要的學生經濟困難及其程度認定的量化指標,這也是精準認定工作的必然要求。
大數據技術可以利用關鍵詞、圖表、定位搜索等技術策略,及時且有效地收集到學生的動態信息。區別于以往的隨機樣本及分析方法,大數據的數據量巨大,應用的樣本也是全部樣本,這樣可以快速地過濾掉海量數據的異常部分,準確、高效地識別出有效數據。大數據技術從最初的家庭經濟困難學生信息的客觀收集,到過程中的動態管理,再到監管環節,都依靠可量化的數據指標,弱化輔助操作和人為因素的影響。同時,在這些精準數據的基礎上,資助部門可以通過對數據進行橫向、縱向二維分析,將定性數據轉化為定量數據,實現數據的全量化分析,拓展數據的量化維度,提供不同的量化層級[6],實現數據分析過程的準確化,從而提升認定工作的精準度和效能度。
運用大數據開展精準認定工作,能夠確保認定流程的科學性、規范性和客觀性,能夠有效避免資助錯配、誤判等情況的發生。與此同時,大數據通過對采集到的海量數據進行存儲和分析,能夠很快地掌握數據之間的關聯性,從大量的數據中深入分析出其中隱藏的規律和發展趨勢。因此,將大數據技術運用到精準認定工作中,能夠準確地把握精準認定的各個因素,并且快速地挖掘其中各個因素之間的關聯規律。可以說,大數據不僅能夠呈現出最真實客觀的數據狀態,同時還能夠實現對未來發展的科學預判,實現對現有的家庭經濟困難學生認定標準和體系的數據印證,為家庭經濟困難學生精準認定評價因素、評價體系的構建提供依據。
1. 合法性
大數據時代的今天,保護個人隱私和數據安全是一個亟待解決的問題,大數據的安全和隱私保護等問題十分重要。家庭經濟困難學生的數據涉及學生家庭及個人隱私,因此,需要格外注意運用大數據的合法性和保密性。
2. 全面性
大數據有利于指標體系的完整構建,使之能夠全方位反映學生家庭經濟的真實情況。然而,數據庫內部信息碎片化,外部信息孤立化,缺乏統一標準,融合性不強,不能互聯互通,給全面分析帶來困難。要真正解決這些問題必須進行頂層設計,構建更加完整的指標體系。
3. 有效性
大數據的數據總量大,但價值密度低。因此,在抓取高校家庭經濟困難學生認定評價因素的原始數據時,挖掘的方向和對數據的清洗非常關鍵,盲目追求海量數據反而會降低指標的有效性。
1. 維度劃分
大數據挖掘的重點是內容數據和行為軌跡數據。這兩個維度覆蓋面較為全面,既有靜態數據又涉及動態數據,在家庭經濟困難學生認定評價因素的構建中,也應遵循大數據的全面性特點,將構建因素分為靜態和動態兩個維度。
2. 因素劃分
基于充分尊重隱私和合法性的考慮,本文以東華大學家庭經濟困難學生為對象展開調研,在充分界定導致學生家庭經濟困難因素的基礎上,聽取專家意見,將可能導致學生發生經濟困難的項目分為四類:人、社會、自然、經濟。
3. 項目劃分
在有效性篩選方面,積極總結和吸收兄弟院校相關經驗,依據上海市高校開展家庭經濟困難認定的實際情況,經反復修訂,初步構建出具有普遍性的困難認定評價因素:一級指標為大數據動、靜態指標及單列指標;二級指標為因素指標,分為人、社會、自然、經濟四個部分;三級指標為16個項目指標,分別為家庭人口數、殘疾重病人口數、生源地、房屋結構、勞動力人口數、非勞動力人口數、自然災害、勞動力工作性質、勞動力受教育程度、贍養/撫養支出、因學支出、在校收入與消費、烈士子女、孤兒、殘疾、直系親屬重大疾病。
1. 數據印證
以東華大學2013—2018年全部家庭經濟困難學生為數據樣本,依照學?,F行家庭經濟困難學生認定辦法與本研究的評價指標體系進行困難學生認定,并將結果進行雙向驗證。運用大數據技術提取2013—2018年五年間困難認定個人描述中的所有關鍵詞,并將關鍵詞代入前述因素一一驗證,在反復論證的基礎上,可見前述項目因素基本可以涵蓋數據庫中篩選出的所有關鍵詞,故指標因素設置較全面。
2. 評價指標計算
第一,對當年家庭經濟困難學生申請中個人情況描述的語句按照本科生、研究生及兩者綜合分別進行統計,篩選個人描述中出現頻率較高的關鍵詞(如收入、父母、身體等),計算各高頻關鍵詞的出現次數(詞頻),并由高到低對關鍵詞進行排序,同時根據各關鍵詞的詞頻與困難學生總數的比例求得詞頻百分數。由于關鍵詞眾多,僅提取頻率最高的30個,如表1所示。

表1 家庭經濟困難學生個人情況描述詞頻分析
第二,按照上文的評價體系各因素,對篩選出的關鍵詞進行分類歸納。如表2所示(僅提取頻率最高的30個)。

表2 家庭經濟困難學生個人情況描述關鍵詞分類

(續表)
第三,根據所包含關鍵詞的詞頻對各項目進行加權求和,從而得出各項目的“項目指數”,最后根據“項目指數”由高到低對項目進行排序。如表3所示(全部數據)。

表3 家庭經濟困難學生個人情況描述關鍵詞指數分析
在所有評價因素中,影響度從高到低依次為贍養/撫養或因學支出、家庭成員人數及房屋結構、家庭經濟收入、勞動力工作性質及受教育程度、家庭成員健康狀況(因病支出)、勞動力人數、生源地、天災。
由詞頻數據分析可知,家庭經濟困難學生認定的主要參考因素分別為贍養/撫養或因學支出、家庭成員人數及房屋結構、家庭經濟收入、勞動力工作性質及受教育程度、家庭成員健康狀況(因病支出)、勞動力人數。在認定操作過程中,可主要從以上因素進行綜合考慮。但需注意的是,精準認定因素是相對的、動態的。其相對性在于同樣的家庭人均收入水平,不同生源地學生的家庭經濟狀況是有差別的;動態性在于,隨著社會經濟的發展,認定因素需要作相應調整,不能一成不變。
與傳統觀念中以家庭經濟收入為主的認定指標不同,通過大數據提取分析實證研究發現,贍養/撫養或因學支出對家庭經濟困難的影響度遠高于其他影響家庭經濟困難的因素。因此,對于高校家庭經濟困難生的精準認定而言,應在贍養/撫養或因學支出一項予以重點關注,即綜合考慮家庭多子女情況及直系老人贍養情況。
根據關鍵詞指數分析可以發現,在困難學生精準認定評價各因素中,動態屬性比靜態屬性占有更大權重。因此,在高校家庭經濟困難學生精準認定的過程中,需定期觀測學生生活、學習、就餐等數據,以及家庭成員健康情況變化、勞動力人數變化、生源地變化、自然災害等情況真實反映學生經濟狀況及生活狀態的信息,做到人工與大數據交叉復核,并根據動態數據不斷調整精準認定的初認定結果,實現精準認定的動態化。