朱 珠 李萌欣 代秀云 陳 娟 梁皓東 楊 禎 劉守印
(1 華中師范大學物理科學與技術學院,武漢 430079)
(2 華中師范大學招生與就業工作處,武漢 430079)
(3 華中師范大學本科生院,武漢 430079)
(4 華中師范大學經濟與工商管理學院,武漢 430079)
(5 中南財經政法大學金融學院,武漢 430073)
自我控制是個體克服自身的欲望或需求,用一種符合自身發展目標或社會標準的行為方式替代另一種固有的或者習慣的行為方式的過程(譚樹華,郭永玉,2008a)。研究表明,自我控制能力(以下簡稱自控力)是人類最強有力的、讓自身獲益最大的能力之一(于國慶,2004),是個體適應社會、達成人生目標的一項重要能力(Cheung et al., 2014)。自控力強的人,往往擁有良好的學習適應能力、滿意的人際關系和健康的身體與心理,在學習和工作中也更容易取得好的成績(Glassman et al., 2007)。而較差的自控力更容易引起各類個人問題和社會問題的發生(尚夕瓊,2019),輕則導致學業無法順利完成,重則可能出現酒駕、賭博等惡性事件。因此,保持良好的自控力十分重要。
相比于成年人,學生特別是即將踏入社會的大學生,正處于成長的關鍵時期,自控力對其更為重要(張慧妍,2019)。大學生可自由支配的時間較多,具有更大的自主性(余友情,2016)。正確的教育指導能夠幫助他們提升自控力,養成良好的行為習慣(李琳等,2015),而合理的教育指導需要自控力評價的支撐。評價結果不僅能夠幫助教育工作者更加全面地了解學生,也能夠幫助學生加強自我認知,更有針對性地提升自控力,促進自身全面發展。
目前,心理學領域對自控力的測量主要有任務實驗方法和量表方法(梁獻丹,2018)。任務實驗方法要求被試者在特定的環境中執行某項任務,由專業人員全程觀察,并根據執行任務的過程和結果對被試者的自控力做出評價。該方法測量結果可靠,但執行過程費時費力,也不能大面積展開調查,只能局限于少量人員(管健,2014)。量表方法是由測試對象自己填寫公認的標準化問卷,根據問卷的回答結果得出自控力的評分。據統計,用于自控力測量的量表多達一百多份,最早可追溯到1975年Fagen等人發表的自控行為記錄表。但大多研究不夠全面,1994年Baumeister等(1996)提出有限自控力理論,2004年Tangney等(2004)結合了近十年自我控制領域的研究成果,發表了新的自我控制量表,這是目前國際上使用最廣泛的自控力量表。2008年譚樹華(譚樹華,郭永玉,2008b)將Tangney版的自我控制量表針對中國大學生的特點進行了修訂,可作為測量我國大學生自我控制能力的工具。量表方法可同時測評大量被試者,但測量結果的置信度會受到測試對象的記憶和主觀意識的影響(蘇悅等,2021),也不能在時間粒度上細致分析測試對象的自控力。
針對心理學傳統測量方法的不足,心理信息學為自控力的評價提供了新思路、新方法。心理信息學是Yarkoni在2012年正式提出的一門新興交叉學科,核心思想是使用計算機和信息科學的工具和技術來改進心理數據的獲取、組織和合成。Markowetz(2014)強調在大數據時代,心理信息學是一個獨立的研究方向,它將計算機科學的技術應用到心理學中,可以克服傳統測量方法收集的數據量小、數據質量不高、耗費人力物力、時間粒度粗等弊端,適應進行大規模的人類行為研究。
近年來,隨著校園信息化的建設,學生在校園內的各種行為被記錄下來,形成了自然環境下豐富的行為數據,如一卡通系統中記錄了學生的食堂消費、超市購物、圖書借閱等行為數據,校園網系統中記錄了學生的網絡使用行為數據。這些數據完整記錄了行為事件發生的時間、位置和過程等信息,為大學生的心理測量提供了新的數據資源和研究途徑(蘇悅等,2021)。許多研究已證明,學生在校園內的行為數據蘊含了大量的心理學含義,是了解學生人格、認知、心理健康狀況等的新途徑。
吳一帆(2018)使用學生一卡通刷卡數據,量化評價大學生的成就性和嚴謹性,其中成就性和嚴謹性是大五人格理論中盡責性的細分特質,量化結果與學分績的斯皮爾曼等級相關系數在0.2左右。Mengyu Zhou等人(2016)提出了教育測量系統(EDUM),通過從校園無線網絡收集的數據來描述大學生的準時性,發現在準時性上表現良好的學生往往學習成績也比較好。羅煒敏(2019)利用學生在校園內的一卡通刷卡數據提取了學生的飲食規律性、圖書館學習規律性、朋友數量等動態特征,并以此構建了大學生抑郁程度預測模型,抑郁二分類模型的F1值可以達到0.9左右。以上研究表明,利用學生在校園內的行為數據建立心理特質的評價模型具有可行性,并且已有學者通過Facebook上發布的帖子構建模型量化評價用戶的自控力(He et al., 2014),說明自控力可以在行為數據中得到體現。
深度學習是機器學習的一種形式,也被稱為深度神經網絡或深度神經學習,它能夠將數據中深層次的、抽象的特征提取出來,使得網絡模型的預測性更準確。長短時記憶網絡(Long Short-Term Memory, LSTM)是Hochreater和Schmidhuber在1997年提出的一種深度學習模型,專門用來處理序列數據的特征提取,已在自然語言處理、股票指數預測等方面取得良好的效果。近來,LSTM已被應用到一卡通行為數據的研究中,如韓澤峰(2020)基于LSTM提出了Consume2Vec模型,以此提取學生行為數據中蘊含的時序特征,在消費金額和消費時間的預測任務上準確率分別為64.41%和55.74%,明顯優于隨機森林、決策樹等,說明LSTM在處理一卡通行為數據方面有獨特的優勢。
綜上所述,本文以大學生在校園內的一卡通刷卡數據作為數據源,通過深度學習提取特征,構建一種自控力測量模型,量化評價大學生的自控力。該測量方法與任務實驗和量表方法相比,主要有以下優勢:第一,相比任務實驗測量方法,該方法可以擺脫對實驗室的依賴,進行大規模的調查與研究;第二,相比量表的測量方法,該方法可以避免與學生之間的互動,消除測試對象的主觀意識影響,測量結果置信度更高;第三,該方法能夠跟蹤分析測試對象在某一時間段內的行為,從而研究大學生自控力的動態變化。
本文采集的數據包括學生行為數據和大學生自我控制量表測試數據兩類,其中學生行為數據作為數據源,量表數據作為訓練模型的標簽。
本文采集的學生行為數據為我國某“211”工程重點師范大學兩個學院大一和大二學生的一卡通消費數據和圖書館門禁數據,數據時間段為2020~2021學年第一學期,即2020年9月1日至2021年1月17日。獲取數據過程嚴格遵守保護學生隱私的規章制度,通過專人和專用設備獲取數據,不泄露給研究無關人員。具體數據情況如表1所示。
一卡通消費數據主要包括學號、消費金額、消費時間、消費地點等字段,其中消費地點除了包括學校內的各個食堂、超市、便利店等,還包括校醫院、藥店、校車、乒羽中心。乒羽中心是校內建設的室內羽毛球和乒乓球場地。圖書館門禁數據主要包括學號和進入圖書館的時刻兩個字段。
選取某高校1218名大一和大二學生,以宿舍為單位進行問卷調查,問卷發放形式為紙質問卷。在填寫量表之前,調查人員和被試者詳細說明了量表的使用方法和調查目的,盡可能保證量表結果的可靠性。共回收有效問卷880份,其中大一學生445份,占50.57%;大二學生435份,占49.43%。
采用譚樹華2008年修訂的大學生自我控制量表進行測量。該量表包括五個維度:沖動控制、健康習慣、抵制誘惑、專注工作和節制娛樂,共19個條目,其中1、5、11、14正向計分,其余反向計分。采用5點計分,從“完全符合”到“完全不符合”分別為5分、4分、3分、2分和1分,得分越高代表自控力越強。在本研究中,該量表的信度為0.85。
880份有效問卷對應的學生中有864名學生的刷卡次數達到統計要求,因此共有864個有效樣本可作為標簽使用。864個有效樣本的自控量表總得分和各個維度得分的統計描述如表2所示,自控總得分的均值為60,方差為106.58。

表2 自控量表得分統計描述
人工特征選取和特征提取容易遺漏和忽略數據的部分重要信息。同時學生行為活動之間具有時序特征,因為學生的刷卡行為是在時間軸上依次發生的,行為與行為之間必然存在著前后時序關系(韓澤峰等,2020)。因此,使用深度學習中處理序列數據的LSTM模型對學生行為數據進行特征提取。
學生行為原始數據無法直接作為LSTM模型的輸入,需要進行編碼表示,其中最常用的編碼方式是獨熱編碼(OneHot)(李文杰,2019)。OneHot編碼是將類別變量轉化為算法模型易于利用的形式的過程,具體方式是將某種變量的M種狀態映射為M位二進制向量,每種狀態對應二進制向量的其中一位為“1”,并且在任意狀態有且只有一位為“1”。
消費數據中的有效信息有消費時間、消費地點和消費金額,圖書館門禁數據與消費數據相比省略了地點和消費金額。首先對消費數據進行編碼。假設學生i在一段時間內的所有消費記錄集合為ci:
(1)

(2)

消費時間。學校課程是按周安排的,學生上課休息是以天為單位循環的,因此學生行為將以周或者天為周期,具有一定的規律性。為了模型能夠挖掘出這種規律,本文將時間分別映射成星期和小時的OneHot向量,星期為7維向量,小時為24維向量。
消費地點。經地點整合之后,共統計出25個刷卡地點,包括餐廳、超市、飲料店、藥房、乒羽中心、校車和校醫院,因此將地點映射為25維的OneHot向量。
消費金額。經統計,學生消費金額分布在0.2~128元之間,消費在1~14元的記錄占90.86%,因此將[1,14]按每1元劃分不同區間,(14,20]劃分一個區間,(20,40]按每10元劃分不同區間,小于1元和大于40元各劃分一個區間,最后將消費金額映射為一個18維的OneHot向量。
然后對圖書館門禁數據進行編碼。門禁數據的關鍵信息只有進入圖書館的時間,因此只需要對時間進行OneHot編碼。假設學生i在一段時間內的所有進入圖書館的刷卡記錄集合為li:
(3)

(4)

綜上,將每個學生的每條刷卡記錄以OneHot編碼形式映射到了一個高維空間,得到了每個學生的刷卡記錄集合,作為后續深度學習模型的輸入。
首先將原始刷卡數據按照OneHot編碼,得到集合ci和li。但學生刷卡次數不一致,因此還需要對數據進行對齊處理。本文采用的對齊方式是以刷卡次數最多的學生為標準,在刷卡次數不足的學生數據后填充“-1”。假設消費數據和門禁數據最長記錄數分別為n和m,ci和li經數據對齊后得到矩陣表示Ci和Li,Ci如公式(5)所示,每一行長度為74。Li與之類似,每一行均代表一條刷卡記錄,長度為31。

(5)
自控力評價模型結構如圖1所示,包括Masking層、LSTM、隱藏層、回歸模塊等,以學生的每條刷卡記錄作為輸入。

圖1 基于LSTM的自控力評價模型
輸入層為Masking層,其作用是屏蔽對齊數據而添加的“-1”。用LSTM模型從消費數據和圖書館門禁數據中提取與自控力相關的時序特征,同時還采用dropout策略,防止模型過擬合,提高模型泛化能力。Ci和Li經過LSTM模型之后得到隱層表示向量,記為Hci和Hli:
(6)

(7)
Hci和Hli經過隱藏層后分別得到消費數據特征向量hci和圖書館門禁數據特征向量hli,再將兩者拼接在一起,得到hi:
hi=Concatenate(hci,hli)
(8)
該模型為有監督學習模型,將大學生自我控制量表的自控總得分和各個維度的得分作為訓練模型的標簽,hi即學生的自控力特征向量,將hi分別輸入不同的全連接層,可生成對學生自控總得分和各個維度得分的預測值。其中,模型的優化方法選用Adam(Adaptive Moments),全連接層的損失函數選用均方誤差(Mean-Square Error,MSE):
(9)
其中N為觀測樣本的個數,yi為因變量y的第i個觀測值,f(xi)為回歸模型的預測值。
模型訓練期間,批處理大小設為64,最大迭代次數設為200,使用正則化方法防止過擬合,并采用前終止策略,既可以節省訓練時間,防止模型后期在訓練集上出現過擬合的問題,也能夠將在驗證集上泛化性能最好的模型保存下來。
將864個有效樣本按照7∶2∶1的比例劃分為訓練集、測試集和驗證集。在模型訓練中,本文嘗試過兩層或三層LSTM堆疊,但是發現一層LSTM即可達到較好的效果;關于內部隱藏節點大小,本文嘗試過32、64、128和256,發現設為64效果最好;因此最終選用一層LSTM,內部隱藏節點設為64。模型預測結果與多項式回歸、SVR回歸和RNN模型進行對比分析,自控總得分預測的分析結果如表3所示。

表3 模型預測自控總得分結果對比分析
r是皮爾遜相關系數,表示模型的預測結果與量表結果之間的相關程度,該值越大表示建模效果越好;決定系數R2表示模型解釋因變量變化的程度,值越大表示模型擬合的效果越好;均方誤差MSE表示模型的計算結果和量表結果之差平方的期望值,該值越小說明預測模型描述實驗數據具有更好的精確度。從表4可以看出RNN模型和本文提出的模型在自控總得分預測任務上效果明顯優于多項式回歸和SVR回歸;本文的模型在三個評價指標上的預測效果都是最好的,說明LSTM模型在處理時序數據上有明顯的優勢;基于LSTM模型的預測結果與量表結果的相關系數r為0.66,呈中高度相關,決定系數R2為0.41,均方誤差MSE為54.16,說明該模型對自控力總得分的預測較為有效。
使用本文的模型對量表五個維度上的得分進行預測,結果如表4所示,預測得分與真實得分的相關系數均高于0.5,最小為0.58;決定系數R2均高于0.3,最小為0.33,說明該模型對每個維度得分的擬合效果也比較好。其中健康習慣維度的擬合效果最好,預測值與真實值的相關程度可以達到0.71,說明學生的“健康習慣”更能從平時在校的行為中反映出來。

表4 模型預測結果
大學生正處于成長階段的關鍵時期,自控力對其更為重要。因為大學的學習氛圍和生活環境都比較輕松,大學生可以獨自支配自己的大多數時間,具有更大的自主性。如果能夠合理地教育、引導、培養學生具有良好的自控力,則能夠很大程度上幫助學生養成良好的行為習慣,使其在面對互聯網等各種誘惑時始終保持清醒頭腦,意識上克服自身的惰性,行動上合理支配個人時間,對新興的信息技術加以利用,不斷提升自己的知識理論水平和實踐操作能力,促進自身向好發展。因此可以使用本文提出的基于LSTM的自控力評價模型幫助高校教育管理者及時發現自控力薄弱的學生,有針對性地對其加以引導和督促。
使用本文提出的模型在某學院2020級學生中進行自控力評價,該年級共370人,行為數據采集時間段為2020年9月1日至2021年1月17日,即大一上學期。自控力總得分整體分布情況如圖2所示。自控力總得分滿分為95分,其中60~69分數段的人最多,占全年級的48.9%;大于70分的學生人數為23,僅占全年級的6.2%。說明該學院2020級學生的整體自控力呈中等水平,自控力良好的學生占比較小,大多數學生自控力一般。值得注意的是,還有15人的自控總得分低于50分,說明這15人的自控力較差,是輔導員應該重點關注的對象。

圖2 自控總得分分布柱狀圖
自控總得分低于50分的15名學生具體行為表現如表5所示,其中消費水平是學生在校內每次刷卡消費的均值;活動熵描述的是學生在?;顒訒r空規律性的程度,取值范圍為[0,1],活動熵值越低,代表學生的在校行為時空規律性越強(任晉華,2018)。從表中可以看出,這15名學生的早餐次數均小于均值,且有9名學生的早餐次數不足10次,最少的僅為1次;消費水平明顯高于平均消費水平;圖書館次數均小于平均值,且有4人圖書館次數為0;有5人的活動熵高于平均水平。說明自控力差的學生在行為上會表現出不愛吃早餐和去圖書館、消費水平偏高、行為時空規律性不強的特點。本文提出的自控力評價模型能夠發現這些學生,提醒高校教育管理者對其給予關注和督促。

表5 低于50分學生具體行為表現
同時,根據模型給出的每個學生在沖動控制、健康習慣、抵制誘惑、專注工作和節制娛樂五個維度的得分,可以畫出五維雷達圖,由于每個維度滿分不一致,這里先將得分標準化,滿分都設置為5分。如圖3所示,是表5中學生14的五維雷達圖,實線是該年級學生的平均水平,帶點虛線是學生14在各個維度的表現,可以看出該學生在健康習慣和沖動控制維度表現趨于中等水平,但專注工作和節制娛樂維度表現較差。根據此雷達圖,可以幫助教育管理者發現學生出現問題的具體表現,有針對性地對其加以引導,從而促進學生全面發展。

圖3 個體五維雷達圖
本文旨在利用大學生在校園內的行為數據,構建一種無感知的自控力評價模型,從而能夠對學生群體進行大規模的研究與調查。通過研究發現,以學生在校園內的行為數據為數據源建立的自控力評價模型,不僅能夠較為有效地測量學生的自控力總得分和各個維度的得分,而且可以克服傳統的任務實驗法和量表法的弊端,避免了與學生之間的互動,還能夠實時跟蹤學生的行為,動態分析學生的自控力變化。
本文提出的自控力評價方法是將數據科學與心理學結合的一次嘗試,為研究者細致分析個體的自控力提供了一種新的工具。在未來,大數據與心理特質研究的結合可能會成為一種重要方法。研究者可利用行為數據與深度學習模型對其他心理特質展開研究。