999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于統計學習算法的學生就業服務平臺數據分類方法

2024-01-15 07:32:28蔣大銳徐勝超
現代電子技術 2024年2期
關鍵詞:分類特征方法

蔣大銳,徐勝超

(廣州華商學院數據科學學院,廣東 廣州 511300)

0 引 言

近年來,隨著高等教育改革的逐漸深入,大學畢業生的就業壓力增大,就業形勢日益嚴峻[1-3]。實現信息化是解決學生就業難的有效辦法,高效、便捷的學生就業服務平臺以及先進的網絡技術都是解決就業困難的新方法。建立一個有效的學生就業服務平臺,有助于解決大學生就業中的各種問題,使其發揮最大的效用[4-5]。然而,隨著學生就業服務平臺建設不斷增加,學生就業服務平臺所積累的數據量隨之增加,數據類型也更加多樣。為全面優化學生就業水平與就業質量,必須對學生就業服務平臺數據進行分類[6-7]。

文獻[8]提出了基于FPGA 和機器學習的大學生就業數據平臺。文中采用貝葉斯方法、多層感知和順序最小優化、集成方法和決策樹預測學生的就業。該算法不同于數據挖掘中的分類技術,是一種能夠實現學生就業數據分類的方法。

文獻[9]研究了基于支持向量機方法的成績單等級路徑對公共高等教育畢業生入學選擇的分類方法。該研究中,使用平均學期成績單等級1~5 的參數進行數據測試。基于數據測試的結果,使用SVM 方法測量數據分類準確度水平,以確定分類執行標準。上述兩種方法均能夠有效實現高等教育學生就業數據分類,但仍存在數據分類精度較低的問題。

文獻[10]提出了基于混合深度神經網絡的就業推薦方法,設定學生基本屬性和行為序列,將混合深度神經網絡模型與自注意力機制相結合來挖掘學生職業特征屬性,完成特征交互和數據擬合,實現學生就業推薦。但是神經網絡隱藏層中包含多個神經元,在計算過程中容易造成算力不足。

為了提高學生就業分類數據計算算力,文獻[11]提出了基于決策樹算法的高校畢業生就業預測方法。通過C4.5 算法生成決策樹,計算學生就業信息增益率指標,根據指標結果對就業數據進行分類,構建就業預測模型;利用混淆矩陣求解模型,完成學生就業預測。

文獻[12]提出了利用K-最近鄰算法的就業數據預測模型,通過K-近鄰算法聚類學生行為信息,根據學生屬性分類就業數據并結合KD 樹索引完成學生就業預測。但是,決策樹算法和K-最近鄰算法在數據分類時間性能方面有待進一步提高。

為了解決上述方法存在的問題,本文提出一種基于統計學習算法的學生就業服務平臺數據分類方法,通過真實實驗數據驗證本文學生就業數據分類方法的精準度與高效性。

1 選擇學生就業服務平臺樣本數據特征屬性

為有效實現學生就業服務平臺數據分類,基于信息熵[13-14]選擇學生就業服務平臺數據樣本特征屬性。設定學生就業服務平臺樣本數據集為Q,以信息熵為Q純度的度量指標。信息熵Ent(Q) 的數值較低時,則表示Q的純度越高,其計算公式為:

式中:Pi為學生就業服務平臺樣本數據集Q中包含的第i類學生就業服務平臺樣本的數量占整個集合樣本總數的比例;a表示學生就業服務平臺樣本數據集Q中包含的樣本類別數量,即i∈[ 1,a]。

最佳的學生就業服務平臺樣本數據特征屬性的選擇是利用信息增益指標[15-17]來完成的,核心思路是:以信息增益作為衡量指標,選取信息增益值最大的學生就業服務平臺樣本數據特征屬性來對學生就業服務平臺樣本數據集進行劃分。信息增益是指利用該平臺的樣本數據特征屬性W劃分Q可以得到的收益量。信息增益值越大,將W作為分配屬性,獲得的樣本的純度就越高,所得的收益量就越大。其表達式為:

式中:n表示以學生就業服務平臺樣本數據特征屬性W為劃分屬性對學生就業服務平臺樣本數據集Q進行劃分時所產生的樣本數量;Qi表示第i類學生就業服務平臺樣本集合,i∈[ 1,n]。

2 融合學生就業服務平臺樣本數據特征信息

在選擇最佳學生就業服務平臺樣本數據特征屬性后,利用主成分分析法[18-20]融合學生就業服務平臺樣本數據特征信息。在a個學生就業服務平臺樣本數據集包含的樣本類別中,分別提取E個學生就業服務平臺樣本數據特征信息,獲取的學生就業服務平臺樣本數據特征矩陣為:

將原始的學生就業服務平臺樣本數據特征變量R1,R2,…,RE線性表示主成分分析后,得到綜合的學生就業服務平臺樣本數據特征變量為:

用料:菜子油 10 kg,拆好的蟹黃2 kg,姜米 500 g,小料(拍松的姜塊 1 kg,大蔥段 500 g,圓蔥塊 250 g,香葉、八角各 5 g)。

假設第xE與第yE個學生就業服務平臺樣本數據特征之間存在的協方差為cxy,其計算公式如下:

根據式(5)計算結果構建協方差矩陣,為:

將學生就業服務平臺樣本數據特征值按照從大到小的順序排序,獲取各個主成分,學生就業服務平臺樣本數據特征值即為各主成分對應的方差。

假設學生就業服務平臺樣本數據特征向量對應的非零特征根為γ1,γ2,…,γE,獲得累計貢獻率為:

式中γk是綜合的學生就業服務平臺樣本數據特征信息中第k個主成分提取的信息所占的份額。

確定變換的學生就業服務平臺樣本數據特征向量個數和主成分個數,獲得變換矩陣。通過主成分分析和樣本原始學生就業服務平臺樣本數據特征計算變換矩陣,完成學生就業服務平臺樣本數據特征信息融合。

3 學生就業服務平臺數據分類

統計學習算法是指使用基于統計原理的有效方法從數據中推斷函數的算法[21-23],其將數學、計算機和統計學的原理相結合,能夠從數據中提取出有用的信息,以便進一步對數據進行處理。樸素貝葉斯算法是統計學習算法的一種,常用于數據分類等場合,能夠有效處理多分類任務[24-26]。因此,本文采用統計學習算法中的樸素貝葉斯算法實現學生就業服務平臺數據分類。將融合后的學生就業服務平臺樣本數據特征信息輸入到樸素貝葉斯分類器模型中,結合先驗概率和后驗概率完成學生就業服務平臺數據分類。

設定學生就業服務平臺數據的訓練樣本集與其樣本集合是固定的,那么樸素貝葉斯分類器將學生就業服務平臺數據都視為獨立存在的個體,通過統計學生就業服務平臺數據的訓練樣本集的數量,得到關于學生就業服務平臺數據的先驗概率,表示為:

式中:Dx為學生就業服務平臺數據的先驗概率;so為學生就業服務平臺數據樣本點;g為樸素貝葉斯分類器模型迭代次數。

在學生就業服務平臺樣本集合中引入統計學習算法中的樸素貝葉斯算法,得到樸素貝葉斯分類器模型為:

式中φ為樸素貝葉斯分類器模型常數。

將融合后的學生就業服務平臺樣本數據特征信息輸入到樸素貝葉斯分類器中,其計算公式如下:

式中:為學生就業服務平臺樣本數據頻率系數。

在學生就業服務平臺數據分類的過程中,計算出學生就業服務平臺數據的訓練樣本集與其樣本集合,可以大幅度地簡化后驗概率的計算量。因此,將其先驗概率與后驗概率相結合,并計算出學生就業服務平臺數據的所有后驗概率數值,公式如下所示:

計算出學生就業服務平臺數據的所有后驗概率數值后,排序得到所有后驗概率數值,并且找到一個最大的后驗概率,它相應的分類就是樸素貝葉斯分類器的結果,由此完成學生就業服務平臺數據分類。

4 實驗結果與分析

4.1 實驗設置

4.1.1 實驗硬件環境

為了驗證基于統計學習算法的學生就業服務平臺數據分類方法的有效性,在實驗中采用CPU i3 2120 作為測試環境。CPU 頻率為3.30 GHz,MEM 為4 GB,硬盤為1 000 GB,顯卡為512 MB,光刻為32 nm,總線速度為5 GT/s,TDP 為65 W。

4.1.2 實驗軟件環境

安裝了64 位Windows 系統的計算機,并通過Java程序實現文中所述的樸素貝葉斯分類器,選擇的開源統計學習平臺為Weka[27]。Weka 軟件是一款免費、非商業化的數據挖掘軟件。在Weka 平臺下完成學生就業數據特征選擇、分類、回歸。數據庫處理工具采用MySQL,語料提取工具采用NLP,向量訓練工具采用Fast Text。

4.1.3 實驗數據選擇

在某全日制本科(二本)院校近5年的高校學生就業服務信息數據中,隨機選取1 500 名高校學生的1 500 個信息數據,具體數據內容如表1 所示。

表1 學生就業數據

選擇的學生就業服務平臺樣本數據特征屬性是250 個,以文獻[8]方法(基于FPGA 和機器學習的大學生就業數據平臺)與文獻[9]方法(利用支持向量機方法對公立高等教育的分類)為對比方法,對所提方法進行驗證。

4.2 ROC 曲線指標測試

為了驗證所提方法的學生就業服務平臺數據分類效果,將ROC 曲線作為評價指標。ROC 曲線下面積與方法的實際分類效果之間呈正比例相關,即面積越大,分類效果越好。分別采用文獻[8]方法、文獻[9]方法和所提方法進行對比,得到不同方法的ROC 曲線對比結果,如圖1 所示。

圖1 不同方法的ROC 曲線對比結果

分析圖1 可知,文獻[8]方法和文獻[9]方法的ROC 曲線面積分別達到整體有效面積的90%和85%,而所提方法的ROC 曲線面積達到整體有效面積的98%以上。因為所提方法在提取學生就業服務數據樣本特征屬性過程中,利用信息熵和信息增益劃分屬性,以此提升了數據分類效果。由此可知,所提方法的ROC 曲線面積較大,其分類效果較好。

4.3 分類準確率測試

進一步驗證所提方法的學生就業服務平臺數據分類精度,將分類準確率作為評價指標,分類準確率越大,表明方法的學生就業服務平臺數據分類精度越高。分類準確率計算公式如下:

式中Wr為正確分類的學生就業服務平臺樣本數據特征屬性。分別采用文獻[8]方法、文獻[9]方法和所提方法進行對比,得到不同方法的學生就業服務平臺數據分類準確率對比結果,如圖2 所示。

圖2 不同方法的數據分類準確率對比結果

分析圖2 可知,當學生就業服務平臺樣本數據特征屬性為250 個時,文獻[8]方法和文獻[9]方法的平均學生就業服務平臺數據分類準確率分別為84.3%和88.6%,而所提方法的平均學生就業服務平臺數據分類準確率高達95.8%。因為所提方法采用樸素貝葉斯算法對學生就業服務平臺樣本數據特征進行分類,利用先驗概率和后驗概率簡化計算量,提高計算算力,從而提高了數據分類準確率。由此可知,所提方法的學生就業服務平臺數據分類準確率較大,具有較高的學生就業服務平臺數據分類精度。

4.4 分類時間測試

在此基礎上,進一步驗證所提方法的學生就業服務平臺數據分類時間,將文獻[8]方法、文獻[9]方法與所提方法相比較,得出不同方法的學生就業服務平臺數據分類時間對比結果,如表2 所示。

表2 分類時間對比結果

根據表2 可知,隨著學生就業服務平臺樣本數據特征屬性的增加,不同方法的學生就業服務平臺數據分類時間隨之增加。當學生就業服務平臺樣本數據特征屬性為250 個時,文獻[8]方法和文獻[9]方法的學生就業服務平臺數據分類時間分別為9.55 ms 和12.77 ms,而所提方法的學生就業服務平臺數據分類時間僅為5.38 ms。因為所提方法利用主成分分析法融合學生就業服務平臺樣本數據特征信息,消除了評價指標之間的相關影響,從而降低了數據分類時間。由此可知,所提方法可以有效縮短學生就業服務平臺數據的分類時間。

5 結 語

本文提出一種基于統計學習算法的學生就業服務平臺數據分類方法。通過選擇學生就業服務平臺樣本數據特征屬性,融合學生就業服務平臺樣本數據特征信息,實現學生就業服務平臺數據分類。但由于研究時間和研究條件有限,實驗范圍選取不夠寬泛,此次研究僅選取一所全日制本科(二本)院校作為實驗對象。在之后的研究中將結合本文實驗結果選擇多種類型院校驗證所提方法的普適性,為學生就業服務數據分類系統設計提供理論支持。

猜你喜歡
分類特征方法
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 精品黑人一区二区三区| 亚洲人成在线精品| 国产精品开放后亚洲| 国产福利免费视频| 日韩a级片视频| 欧美午夜视频在线| 久久9966精品国产免费| 亚洲天堂网站在线| 国产伦精品一区二区三区视频优播| 国产福利小视频高清在线观看| 无码中文AⅤ在线观看| 欧美视频免费一区二区三区| 99九九成人免费视频精品 | 亚洲男人在线天堂| 亚洲精品日产精品乱码不卡| 日本伊人色综合网| 色妞www精品视频一级下载| 日韩成人免费网站| 日韩性网站| 国产91小视频在线观看| 色婷婷电影网| 91po国产在线精品免费观看| 久久伊人操| 色噜噜中文网| 亚洲91精品视频| 国产精品私拍在线爆乳| 欧美日韩一区二区在线播放| 婷婷中文在线| 久久久久青草大香线综合精品| 另类专区亚洲| 国产精品99久久久| 精品久久久久久中文字幕女 | 男人天堂亚洲天堂| 亚洲精品在线91| 欧美一级高清视频在线播放| 亚洲成人在线网| 亚洲一区二区三区香蕉| 久久久受www免费人成| 亚洲小视频网站| 亚欧成人无码AV在线播放| 精品少妇人妻av无码久久| 国产大片喷水在线在线视频| 国产免费一级精品视频| 中文无码精品A∨在线观看不卡| 国产精品吹潮在线观看中文| 美女视频黄又黄又免费高清| 色综合天天综合中文网| 亚洲一区第一页| 久久久久久尹人网香蕉| 亚洲国产天堂久久综合| 久久96热在精品国产高清| 国产69精品久久| 亚洲视频免| 亚洲va欧美va国产综合下载| 欧美一级一级做性视频| 国产精品亚欧美一区二区| 亚洲高清中文字幕在线看不卡| 免费看a级毛片| 91九色国产porny| 亚洲精品无码在线播放网站| 人人91人人澡人人妻人人爽| 热re99久久精品国99热| www.日韩三级| 久久精品国产999大香线焦| 在线观看热码亚洲av每日更新| 国产精品va| 亚洲乱伦视频| 久久网欧美| 五月激激激综合网色播免费| 国产成人免费| 国产一区二区三区视频| 精品色综合| 久久久久久国产精品mv| 国产成人精品高清不卡在线| 久久久久久国产精品mv| 国产精品一区二区国产主播| 亚洲精品第1页| 国产午夜精品一区二区三区软件| 久久国产精品影院| 女人18毛片久久| 亚洲最新在线| 韩国v欧美v亚洲v日本v|