但詩瑤,黃文杰,石凱
(樂山師范學院 數理學院,四川 樂山)
現今,隨著信息社會的飛速發展,工作的類型也越來越多樣化,在招生人數不停增加、社會就業競爭激烈的情況下,傳統的培養模式會導致學生的就業品質不高,職業的穩定性也不好。這一現象引起了一些學者的注意。在大數據與機器學習飛速發展的時代,已有學者利用了不同方法探尋學生發展方向與各種因素之間的關系。尉建文[1]研究了父母的社會地位與社會資本對大學生求職意愿的影響,發現這兩個方面對大學生就業的影響存在很大差異。張楊和王琴[2]發現家庭稟賦和人力資本對大學生出國意愿產生了不同程度的影響。丁彤[3]探究了影響考研的客觀因素。陳迎明[4]回顧了大學生就業影響因素十年研究,并將這些因素劃分為內部因素和外部因素、單因素和多因素,并指出已有研究對于解決大學生就業問題的期望仍有一定差距。孫笑飛[5]在基于數據分析的高職學生發展趨勢預測算法實踐中利用了K-Means算法作為學生預測的核心算法,引入判別函數等來對K-Means算法進行改進,開展了對高職學生的發展趨勢預測。孫怡帆[6]等人在大學生畢業方向預測中使用機器學習領域的Lasso-Logistic算法,構建了精準度高達70%以上畢業生去向的預測模型。縱觀對大學生發展方向的研究,其中對于影響因素的探究較多,而對于預測算法的研究則較少。
本文在基于已有的對大學生發展方向的研究結果中客觀選擇影響因素,利用機器學習中的logistic回歸算法建立并不斷訓練模型,找尋其中關聯度最高的影響因素來建立預測模型,并保證較高的預測精確度。旨在為高校研究大學生發展方向提供一定的參考,為學校和社會尋覓到更適合學生發展的培養方案提供幫助,讓高校學生可以正確定位自己。本文所提供的理論參考和預測模型能使院校工作者在進行人才培養工作時有據可依,有利于完成人才培養的目標,提升資源的利用率和辦學質量。同時也能為社會制定大學生相關政策提供建議,促進社會發展。
回歸分析(regression analysis)是一種運用十分廣泛的數理統計方法。它主要用于確定兩種或兩種以上變量間相互影響程度,該方法側重考查變量之間的數量變化規律。回歸分析通過建立回歸方程研究變量之間的密切程度,幫助人們尋找隱藏在數據中的統計規律性,明確變量受一個或多個變量的具體影響程度,使得人們對變量間的關系了解得更直觀、透徹,并能高效提取出有效信息。對變量進行合理的回歸分析,還能為今后的預測提供科學的依據。回歸分析預測法是回歸分析在變量預測方向上的一個推廣,它將建立在變量之間的回歸方程作為預測模型,篩選出對因變量產生影響的主要因素,并根據自變量在預測范圍內的數量變化來預測因變量在該范圍內的結果。
回歸分析是剖析數據和建模的重要工具,回歸模型就是基于回歸分析所建立的。當因變量是二分類或多分類型變量時,無法借助一般線性回歸模型進行研究。因為它不能滿足一般線性回歸模型對因變量取值的要求,且違反了回歸模型的前提假定,如不再滿足同方差。因此,當因變量為定性變量時,采用logistic回模型。當因變量為二分類變量時,采用二項logistic回歸模型;當因變量為多分類變量時,采用多項logistic回歸模型。
1、二項logistic回歸模型
當因變量為二分類變量時,無法采用一般線性回歸模型進行分析。可以對因變量做一些變換,使它滿足一般線性回歸模型建模的要求。一元線性回歸模型的可表示為后者是對當自變量為x1i時因變量均值的預測。對于二分類因變量來說,就是當自變量為 x1i時因變量為1的概率的預測。此時,一元線性回歸方程的一般形式可寫為:

概率P在此處并不滿足一般線性回歸模型對因變量取值的要求,需要對P采取合理的變換。變換后的P需要同時滿足實際取值范圍在 ~+?∞ ∞之間且與自變量之間的關系是非線性,即回歸函數應該是限制在區間[0,1]內的連續曲線。常常采用Logit變換對P進行處理來解決該問題。
首先引入邏輯斯蒂函數(logistic distribution)概念[7]。
邏輯斯蒂函數取值范圍為(0,1),它由下列公式定義:

其中,μ和γ分別為位置參數和形狀參數(γ>0)。
邏輯斯蒂函數的圖像形如S形曲線,所以又稱為sigmoid函數。二項logistic回歸模型是一種分類模型,由條件概率分布 P( x| y )表示,形式即為參數化的邏輯斯蒂分布。

圖1 logistic函數圖像

圖2 logistic密度函數圖像
可以看出,在線性回歸模型中引入邏輯斯蒂函數可以使概率P滿足一般線性回歸模型對因變量的取值要求。引入Logit變換:
一件事件的幾率(Odds,也稱為優勢)是指該事件發生的概率與改時間不發生的概率的比值[2]。如果事件發生的概率是P,那么該事件的幾率是,該事件的對數幾率(log odds)或logit 函數是

以上對P作的兩步變換即為Logit變換,并且logit( p) 往往和自變量呈線性關系。我們可利用一元線性回歸模型寫出 logit( p ) 與自變量的多元分析模型:

其的中 第 xji表個示觀第測j值個,自 β變j量則,為x第ji表j個示自第變j量個所自變對應的回歸系數。以上即為二項logistic回歸模型。
2、多項logistic回歸模型
當因變量為多分類變量時,采用多項logistic回歸模型。多項logistic回歸模型又分有序和無序。
以包含3個水平的因變量為例介紹有序多項logistic回歸模型。假設因變量取值分別為1、2、3,所對應的概率分別為 p1、 p2、 p3,且按照擬合二項logi stic回歸模型的步驟,對自變量擬合2個模型:

易知模型中自變量所對應的系數 jβ并不改變,改變的只是常數項α。
同理可寫出無序多項logistic回歸模型:

模型中 ijβ表示第i個模型中第j個自變量所對應的回歸系數。大量研究表明,分類數據利用該模型建模效果很好。


對logistic回歸對數似然方程的求解,常采用梯度下降法。
本研究以四川樂山某高校本科院校畢業大學生為研究對象,旨在探索畢業大學生的在校狀況與個人發展方向的關系,建立模型,為在校大學生選擇發展個人方向提供參考。數據主要由學校各學院、各部門的負責人所提供。數據包括畢業生的性別、籍貫、政治面貌、家庭戶口、家庭月收入、進出圖書館次數、學分加權平均分、是否師范類、是否貧困生。
所調查的院校是一所師范類本科院校,調查對象主要是該院校剛畢業的大學生,通過數據整理分析可得出:畢業后選擇做教師的學生則占總體學生的52.8%,選擇就業的學生占總體學生的28.0%,而選擇讀研的學生占總體學生的19.2%。樣本中女生占了總體的77.6%,男生則有22.4%;女生中畢業后選擇教師的占55.2%,選擇就業的占23.2%,選擇讀研的則占21.6%;男生中畢業后選擇教師的占44.4%,選擇就業的占44.4%,選擇讀研的則占11.1%。樣本中專業是師范類的占總體的74.5%,非師范類的則占25.5%;師范類中選擇教師的占68.4%,選擇讀研的占23.3%,選擇就業的占8.3%;非師范類中選擇就業的占85.4%,選擇讀研的占7.3%,選擇教師的占7.3%。對數據進行簡單分析可得出,女性比男性更愿意選擇繼續深造;師范類專業的畢業生近七成會選擇做教師工作,而非師范類專業的畢業生八成選擇畢業后直接就業;可見,是否師范類對畢業生選擇發展方向影響顯著。

表1 數據情況
本文在歸納和整理研究大學生發展方向影響因素的相關文獻后,結合調查院校的實際情況,對學生的綜合素質、家庭情況、學業水平進行了分析。最終選取了3個顯著的自變量擬合模型。其中是否師范類為定性變量,學分加權平均分、圖書館進出次數為定量變量。因變量是畢業大學生所選發展方向,為定性變量,取值為就業、教師、研究生。

表2 變量摘要
根據所取得的數據,建立無序多項logistic回歸模型進行分析。假設模型如下:


本文運用SPSS 23.0軟件進行logistic回歸分析。利用這三個自變量建立與畢業去向的無序多項logistic回歸模型:

表3 模型擬合信息
表3是對模型進行似然比檢驗的結果,檢驗的原假設是所有自變量偏回歸系數全為0,從反饋結果可看出,自由度為6,顯著性 p< 0.001,則應該拒絕原假設,表明至少有一個偏回歸系數不為0。

表4 似然比檢驗
從表4中的檢驗結果可以看出,自變量顯著性p均小于0.05,則偏回歸系數不為0,說明模型中引入的自變量是有統計學意義的,對模型的貢獻均為顯著的,引入合理。擬合出的模型分別為:

其中 3( 0)x= 表示當學生專業不是師范類時取值為1,反之則為0。
對于logistic模型擬合優度的測量,崔黨群[9]曾在相關文獻中提出一種方法,他闡述了logistic曲線回歸方程因含有回歸參數a、b和常量 K,不適宜用一般曲線回歸的假設測驗方法進行擬合優度檢驗,并提出可以利用實際值和預測值,運用適合性 χ2測驗,進行擬合優度檢驗。
將模型預測值與實際值進行 χ2檢驗:

表5 畢業去向交叉表
從表5中可以看出,僅有一個單元格的期望頻數小于5,并不超過整個單元格數量的百分之二十,可以使用卡方檢驗進行分析。

表6 卡方檢驗

表7 模型預測情況
從表7返回的預測結果得出,擬合的模型對樣本預測的正確率為77.6%,效果較好。
本文使用R語言中的nnet包對模型的預測效果進行分析。對樣本進行500次隨機抽樣,每一次按照7:3的比例劃分為訓練集和測試集。利用訓練集擬合無序多項logistic回歸模型,將測試集數據代入模型并計算出模型的預測正確率。對每次計算出的預測正確率求和取均值,得到模型的平均預測正確率為76.7%。結果表明無序多項logistic回歸模型對大學生發展方向的預測具有較高準確率。
從調查結果可以看出,學生的籍貫、政治面貌、家庭戶口、家庭月收入以及是否貧困生對學生選擇個人發展方向并無顯著影響。在普通師范類本科院校中,學生的考研率并不高,只占了總體學生的兩成。其中學分加權平均分與進出圖書館次數對學生發展方向有著正向影響。即分數越高、進出圖書館次數越多的學生更傾向選擇繼續深造。非師范類的學生在選擇繼續深造與直接就業中更傾向于畢業直接就業,師范類的學生在這兩者中更傾向于選擇繼續深造。Logistic回歸模型在對大學生發展方向的研究中擬合效果顯著,預測正確率較高,本文可為相關研究提供一定參考。
對于本科學生來說,在師范類院校選擇當教師的學生較多,在該環境下一些非師范類的學生也會選擇當教師,這時就需要同學認真思考自己,結合自身興趣、家庭等因素考慮發展方向,通過網絡數據庫可以得到研究生的平均薪資會高一些,因此大部分同學可以繼續深造,提高生活水平和自身專業素質。對于本科院校來說,本科專業為師范類的同學畢業去向大多是當老師,選擇深造的同學較少,在當今社會,本科出身達不到一些中學當教師的要求,院校在早期培養學生時,要多注重學生專業基礎,提高學生的學習自主性。并可適當鼓動同學繼續深造,提高學歷、豐富自身涵養。考研率增加也會使得院校口碑變好,引進更優秀的學生團隊與教師團隊。在利用本文分析各學生的自身定位后,可以根據學生定位進行資源的分配,提高資源的利用率。對于社會來說,提高國民專業素質是有利于社會發展的,國民素質越高,社會發展越有利,可適當討論擴招方面的政策,提高國民專業素質,但同時還要考慮社會競爭關系,擴招幅度應循序漸進,不宜過大導致研究生綜合水平降低。