唐燕+王蘋
[摘要] 中醫藥院校的就業渠道較窄,就業壓力較大。如何精確預測就業困難學生,提供幫扶,使其早日就業是高校非常重要的一項工作。本文基于C4.5決策樹算法,生成就業判定決策樹,確定就業的重要影響因素,并預測就業情況。并進一步使用隨機森林算法提高就業預測正確率。本文結合兩種方法為中醫藥類高校畢業生工作就業預測提供了一種新方法,具有一定的實際應用價值。
[關鍵詞] C4.5決策樹算法;隨機森林算法;機器學習;就業指導
[中圖分類號] G640 [文獻標識碼] A [文章編號] 1673-7210(2017)08(c)-0166-04
[Abstract] Chinese medicine institutions of employment channels is relatively narrow, graduates have great employment pressure. How to accurately predict the employment of students, to help them, so that they can early employment is a very important university work. Based on C4.5 decision tree algorithm, this paper generates employment decision tree, determines the important influencing factors of employment and predicts the employment situation. And further use the random forest algorithm to improve the accuracy of employment forecast. This paper provides a new method for the employment of Chinese medicine colleges and universities, and has practical application value.
[Key words] C4.5 decision tree algorithm; Random forest algorithm; Machine learning; Employment guidance
近年來,全國高校就業人數逐年上升,就業形勢日益嚴峻。2010年我國高校畢業生達到630萬,2016年達到765萬,被稱為“史上最難就業年”。而2017年,全國普通高校畢業生預計795萬人,再創新高。高校畢業生就業人數在7年間上漲了165萬,就業壓力增大。
而中醫藥院校的就業渠道相對別的工科院校較窄,專業主要以中醫、中藥、護理、管理、人文等專業為主,學生的主要就業去向以臨床醫院及與醫療相關的醫藥企業工作為主,就業壓力比較大。對于中醫藥類高校,如何有效的識別就業困難學生,為他們提供就業幫扶是非常重要的。本文針對中醫院校本科生就業情況進行研究,并采集各專業畢業生就業信息,使用C4.5決策樹算法,構造決策樹,獲得就業和學生影響因素之間的關系,生成決策樹。并進一步使用隨機森林算法提高識別就業困難學生的準確度。本文為中醫藥類高校就業指導工作提供了一種新方法。
1 中醫藥院校就業狀況
當前,中醫藥院校畢業生的就業情況不容樂觀。以就業率較高的北京中醫藥大學(以下簡稱“我校”)為例,雖然畢業生就業率連續多年保持較高水平,在部屬院校中處于前列,就業質量不斷提高。但是,我校2012~2014年發布的就業數據顯示:2012年未就業人數占4.86%,2013年未就業人數占5.01%,2014年未就業人數占7.73%。未就業人數也呈逐年上升趨勢。
中醫藥院校畢業生的主要就業去向有以下方面:臨床(包括各類各型的醫院,如:中醫醫院、西醫醫院、社區醫院、預防保健機構等)、科研、教學、升學考研、公務員、出國及從事與健康相關的醫藥企業。其中,醫學類專業就業主要去向:升學、臨床、科研、教學等;藥學類專業就業主要去向:升學、出國、醫藥企業等;管理類專業就業主要去向:升學、出國、公務員、醫藥企業等;護理學專業就業主要去向:臨床、升學、出國等;人文類專業就業主要去向:升學、出國、公務員、醫藥企業等。
在中醫藥院校的各個專業中,就業情況是不同的。我校2014年的就業報告顯示,醫學專業的未就業率為2.31%,藥學專業的未就業率為2.56%,護理學專業的未就業率為2.22%,管理學專業的未就業率為10.70%。醫學、藥學、護理學、人文專業的未就業率相差不大,法學專業100%就業,而管理學未就業率最高,達到10.70%。見圖1。
2 C4.5決策樹算法
2.1 決策樹
決策樹是經典的機器學習方法。一棵決策樹包括一個根結點、若干個子結點和葉子結點。根結點和子結點對應一個屬性測試,樣本集合根據屬性測試的結果劃分到子結點中;葉子結點對應于分類結果[1]。從根結點到葉結點的路徑對應了各種分類規則。
2.2 C4.5決策樹算法原理
C4.5算法是由Quninlan在1993年提出的決策樹算法,C4.5算法是ID3算法的改進,改進了ID3算法的不足。ID3算法根據信息論原理,通過計算各屬性的信息增益,選擇信息增益最大的屬性作為當前節點,劃分樣本[2-3]。并選取該屬性的各取值,建立由該屬性引發的分支,繼續計算、選擇子結點,最終構造決策樹[4-5]。但是,ID3算法存在如下缺陷:
ID3采用信息增益大的特征優先建立決策樹的結點,將會導致在相同條件下,取值比較多的特征比取值少的特征信息增益大;沒有考慮連續特征;沒有考慮缺失值的情況;有可能導致過擬合。endprint
2.3 C4.5算法計算步驟
C4.5算法在ID3算法的基礎上進行了改進。C4.5算法使用信息增益率作為選擇分裂屬性的標準,引入了正則化系數進行初步的剪枝避免過擬合[8],離散化處理連續屬性,通過加權方式處理缺失值。
3 隨機森林算法
隨機森林是2001年由美國科學院院士Breiman教授提出的,結合了Bagging和Random Subspace的思想一種算法。隨機森林是由多個決策樹而形成的一種集成分類器模型[2]。隨機森林算法是由多棵決策樹作為基學習器,利用Baging生成不同的訓練集,在單棵樹的訓練過程中引入隨機屬性選擇,訓練多次,得到多棵不同的決策樹,將這些樹組合成隨機森林分類器。在分類時通過投票或取平均決定未知樣本的類別[8]。
隨機森林的構建過程中進行樣本的隨機選擇和屬性的隨機選擇[9-10]。經過兩次隨機使得每棵樹的構建過程中即使沒有進行剪枝也不會出現過擬合情況[11]。
隨機森林算法的實現步驟如下所示:
①從數據集中利用bootstrap抽樣法有放回地隨機抽樣,選取每棵樹的訓練樣本集。初始訓練集中,有些數據重復出現,有些從未出現[12]。在訓練過程中,每次抽樣約有63.2%的樣本被抽中,作為自助樣本集,用來作為訓練數據構建一棵決策樹;剩余的36.8%的樣本稱為袋外數據,可作為測試集,測試分類誤差[13-14]。
②每個自助樣本集用來構建一棵決策樹或條件樹。假設每個樣本有M個屬性,在構建決策樹時,每次隨機選擇m個屬性(m ③每棵決策樹的每一個節點都按照步驟2進行選擇。使得每個節點的純度最高,即Gini指數最小的屬性作為最優劃分屬性,直到節點不能分裂為止[16]。并建立CART決策樹。將上述過程重復多次,構建多棵決策樹,形成森林。 隨機森林算法執行效率較高,并且明顯的提升了預測精度,被稱為當前最好的算法之一。 4 C4.5決策樹模型的建立及實現 4.1 數據的采集 文本連續3年對我校的畢業生進行問卷調查,問卷內容涉及畢業生個人信息、家庭經濟狀況、成績信息、參加社團信息、擔任學生干部信息、就業情況等方面。共獲得449條記錄,15個特征向量。剔除嚴重缺失數據和異常數據[9],得到有效記錄412條。 特征向量包括:性別(X1)、民族(X2)、黨員(X3)、戶口(X4)、專業能力(X5)、計算機水平(X6)、英語水平(X7)、人際關系(X8)、團隊合作能力(X9)、領導能力(X10)、學習成績(X11)、綜合能力(X12)、專業熱門程度(X13)、家庭經濟困難(X14)、是否就業(Y)。 進一步進行數據的離散化處理[11]。將專業能力、計算機水平、英語水平等特征向量離散化為1,2,3,4,5,數值越高,表示能力越強,水平越高。 4.2 構建并實現決策樹算法 實驗中,使用python語言實現C4.5決策樹算法,程序中生成的決策樹。見圖2。 根據實驗得出的決策樹,可以得出能否就業的一些預測規則,如下所示: ①if綜合能力≤2.0 and 英語水平≤1.5 then 未就業;②if綜合能力≤2.0 and 英語水平>1.5 and 計算機水平≤1.5 then 未就業;③if綜合能力≤2.0 and 英語水平>1.5 and 計算機水平>1.5 and 團隊合作能力 ≤1.5 then 未就業;④if綜合能力≤2.0 and 英語水平>1.5 and 計算機水平>1.5 and 團隊合作能力>1.5 then 就業;⑤if 綜合能力>2.0 and不是黨員 and 農村戶口then 未就業;⑥if 綜合能力>2.0 and不是黨員 and 城市戶口and 學習成績≤2.0 then 未就業;⑦if 綜合能力>2.0 and不是黨員 and 城市戶口and 學習成績>2.0 then 就業;⑧if 綜合能力>2.0 and是黨員 and 計算機水平≤2.5 and 少數民族 then 未就業;⑨if 綜合能力>2.0 and是黨員 and 計算機水平≤2.5 and 非少數民族 then 未就;⑩if 綜合能力>2.0 and是黨員 and 計算機水平>2.5 and專業能力≤2.5 then未就業;■if 綜合能力>2.0 and是黨員 and 計算機水平>2.5 and專業能力>2.5 then就業。 4.3 結果分析 通過決策樹,可以看出決定中醫藥院校學生就業的重要因素是畢業生的綜合能力。綜合能力強,政治面貌是黨員,并且計算機水平、專業能力好的學生就業情況較好;但是,若專業能力太差也不能就業。可見,醫學院校學生的專業能力在就業中的作用是非常重要的。另外,英語水平在就業中的作用也很重要,綜合能力差并且英語水平低的學生也不能就業。另外,若綜合能力中等以上水平,不是黨員,城市戶口的學生,學習成績是就業的重要因素,學習成績好能就業,否則不能就業。另外,少數民族同學若計算機水平差也會就業困難。團隊合作能力在就業中也起一定作用。 通過就業決策樹的分析,也會對在校低年級的同學起到警示作用,及早查漏補缺,努力補上自己的短板,避免就業時出現就業困難情況[14]。 5 就業困難學生的認定 在C4.5決策樹算法的實驗中,隨機選擇70%的數據作為訓練數據,其余30%數據作為測試數據。在訓練好的模型中對測試數據進行測試,選擇樹的深度為4,得到的正確率為80.65%。在程序中調整參數,將決策樹的深度從2變化到20,進行循環,得到決策樹的深度與正確率的曲線圖。見圖3。
可以看出,當樹的深度較低時正確率較高,樹的深度增加時,并沒有過擬合,正確率快速下降,并逐步趨于穩定,平均正確率應在70%~78%之間波動。正確率并不是很高。
實驗進一步在相同的數據集上使用分類精確度較高的隨機森林算法進行就業情況分類[18]。調整隨機森林算法的數的棵數從10變化到50,繪制隨機森林的正確率。見圖4。
可以看出,當樹棵數較少時正確率波動較大,隨著樹的個數的增多,分類正確率逐步穩定。隨機森林正確率在82%~84%波動。與決策樹的正確率相比,隨機森林精確度更高,判定效果更好一些。當然,若改進算法或使用一些更為復雜的模型,能獲得更好的分類精確度[19-20]。
在實際就業指導工作中,若需要預測就業困難學生,可以結合上述兩種模型進行預測。
6 小結
中醫藥院校畢業生的就業壓力較大,如何預測就業困難學生,為其提高指導和幫助,實現全就業,是亟待解決的一項工作。本文應用數據挖掘和機器學習中的C4.5決策樹算法,通過實驗,建立就業情況決策樹,并分析就業中的影響因素,為提前預測就業困難學生提供決策支持。為了進一步提高預測正確率,采用隨機森林算法進行就業困難學生的預測。通過實驗證明,隨機森林能有效提高預測正確率。實際應用中,兩種模型可以結合使用。本文為中醫藥院校的就業指導工作提供了一種新方法,具有實際應用價值。
[參考文獻]
[1] 周志華.機器學習[M].北京:清華大學出版社,2016.
[2] 韓玉,施海龍,曲波,等.隨機森林方法在醫學中的應用[J].中國預防醫學雜志,2014,15(1):79-81.
[3] 王賽男. C4.5分類算法在高職就業預測中的應用[J].現代計算機,2014(23):21-25.
[4] 喬非,葛彥昊.基于BP神經網絡的就業招聘企業客戶分類問題研究[J].計算機科學,2015,42(12):1-4.
[5] 韓冰.基于數據挖掘的就業困難學生認定研究[J].中國大學生就業,2017(1):44-50.
[6] 從雨佳,朱家明.對我國就業狀況的分析及預測[J].皖西學院學報,2016,32(3):79-82.
[7] 寇小鴻.組合預測模型在寧波市就業趨勢的預測研究[J].浙江紡織服裝職業技術學院學報,2016,15(1):80-83.
[8] 馬驪.隨機森林算法的優化改進研究[D].廣州:暨南大學,2016.
[9] 蔡麗艷,馬弘偉.數據挖掘技術在高校就業預測分析中的應用[J].微計算機信息,2012,28(8):100-103.
[10] 楊飚,尚秀偉.加權隨機森林算法研究[J].微型機與應用,2016,35(3):28-30.
[11] 陳曉,王樹寶,李建晶,等.基于加權約束的決策樹方法在貧困生認定中的應用研究[J].計算機應用與軟件,2014, 32(12):136-139.
[12] 張新佶,張天一,許金芳,等.隨機森林傾向性評分方法及其在藥品不良反應信號檢測中的應用[J].中國衛生統計,2016,33(4):578-581.
[13] 鞏亞楠,帕提麥·馬秉成,朱登浩,等.隨機森林與Logistic回歸在預約掛號失約影響因素預測中的應用[J].現代預防醫學,2014,41(5):769-772.
[14] 張琳瑜,王鳳超,韓子玥.基于決策樹的大學本科畢業生就業影響因素分析—以北京林業大學信息學院為例[J].中國林業教育,2017,35(2):46-51.
[15] 向濤,李濤,趙雪專,等.基于隨機森林的精確目標檢測方法[J].計算機應用研究,2016,33(9):2837-2840.
[16] 崔盈盈,劉施,吳嘉瑞,等.基于貝葉斯網絡與決策樹的雙黃連注射劑不良反應流行病學特點研究[J].藥物流行病學雜志,2017,26(1):19-26.
[17] 成啟明.基于決策樹模型的計算機課程教學的學生屬性影響分析[J].西南師范大學學報:自然科學版,2017, 42(1):60-65.
[18] 唐學華.基于隨機森林決策樹質量管理方法研究[J].重慶科技學院學報:社會科學版,2015(7):61-63.
[19] 秦鵬程,劉志雄,萬素琴,等.基于決策樹和隨機森林模型的湖北油菜產量限制因子分析[J].中國農業氣象,2016, 37(6):691-699.
[20] 馬李冰,侯艷,李貞子,等.多步驟決策樹方法在基因表達數據上的應用研究[J].中國衛生統計,2017,34(1):135-138.
(收稿日期:2017-04-03 本文編輯:李岳澤)endprint