陸一鳴 李雪竹


【摘 要】當今時代高等學校畢業生日趨增多,崗位需求增長緩慢,就業難度逐漸增加,同時高校應往屆畢業生在所學專業和社會需求卻并不對稱,存在一定的錯位現象。在此背景下,以大數據分析為主基礎,通過對于畢業生就業各種方向的分析,設計實現一種較為全面的高校畢業生就業系統。系統主要以高校畢業生的需求分析和就業實際情況分析尋找相通處,并通過算法工具就行研究,增強對高校應往屆畢業生在就業領域上的指導作用。
【關鍵詞】數據處理分析;算法設計;就業領域
一、引言
近大部分高校應屆畢業生更傾向較為發達城市的工作崗位,逐步使這些城市的人才趨于一個飽和的狀態,導致部分地區城市的崗位富余且沒有畢業生去應聘。在外工作數年后,有部分學生有返鄉打算并付諸行動,使其與應屆畢業生就業相碰撞,造成就業壓力的加大。同時,目前部分選擇先就業再擇業,跨所學專業的就業和對相應工作的不了解,造成了一定程度的人力資源浪費。從目前來看,傳統的就業理念不足以支撐現如今的就業形勢。如何更好的就業,是否了解相關的就業形勢,不同等級的院校畢業生情況等方向成了現如今研究的重中之重。高校畢業生就業系統從畢業生數據挖掘分析和社會需求同職業影響力相關聯,找尋一個新的突破口。畢業生的實際工作生活狀況和預想的狀況的對比、數年后是否返鄉就業則是最大的變化。現如今的就業系統大多以單位給出需求為主,無法實現智能化的就業選擇,同時如何在保證用戶的信息安全的狀況下為用戶提供最好的就業方向成了最為重要的技術難題。針對以上的問題,本文將在大數據分析下設計一種全新的高校畢業生就業的初步系統。
二、功能需求
系統以畢業生、用人單位、高校以及各地政府為主要方面。分別從就業意向、實際就業、就業同生活環境、就業率以及公務員、教師和“三支一扶”為主要抓手。其中用人單位、高校、政府為第三方,方便于畢業生的就業問題的實現。
(一)畢業生方面
畢業生作為系統的核心,通過用戶注冊,并對其一定的專業和意向評估,為畢業生進行用人單位的數據篩選。在初選用人單位時,可通過客服給予其初篩的用人單位和相似度極高的用人單位一定的了解。進行二次篩選時增加通過該系統就業后進入用人單位的個人反饋,增強畢業生對該單位的了解。最后向用人單位發送就業意向函,直接同用人單位聯系。用人單位和個人可選擇線上和線下兩種簽約模式,待合同簽約成功后上傳系統。待就業半年、一年、三年后填寫相應的個人反饋。若為應屆畢業生,系統反饋其就業信息給畢業生所在高校。
(二)用人單位方面
用人單位在系統上注冊后可發布相應的人才需求并標注相關信息,如:薪資待遇、單位所在地、節假日安排等。用人單位可以通過相應的人才需要對有此意向的畢業生進行篩選,同時與畢業生進行直接的溝通交流。若被畢業生選中后,同畢業生進行線上或線下的就業交流,保障就業生的就業環境。同時為保障畢業生的基本權益,產生的就業協議會通過專業人員進行檢查。
(三)高校方面
系統對于高校注冊后開設查看畢業生就業方向和就業單位等權限,每年高校對各二級學院各專業的就業率以及平均薪資和跨專業人數進行更新,方便高校日后進行課程改革。高校對于畢業生有就業指導的意義,指導畢業生如何去選擇用人單位。同時為了保障學生在實踐和理論上可以完美的結合,開展實習實訓,加強實踐。另一方面,應屆畢業生就業后半年或者一年后,高校應組織相關人員對就業畢業生進行就業反饋。
(四)各地政府方面
各地政府在系統注冊后對其開放各不同學歷的人才數量和就業方向等權限,充分把握本地區的人才分布情況和所缺人才的方向。同時增加與高校聯合培養人才的信息掌控環節。
三、數據挖掘
數據挖掘目前有決策樹、神經網絡、云模型等,但是各自都有自己的局限性,打破這種局限性,在綜合性能上得到提升,提高數據挖掘的效果成了重中之重。
(一)決策樹方向
以概念學習系統為基礎,對目標對象的特征進行判斷和確定,基于不同的特征將數據庫細分為多個特征子集,再由此作分枝,將其內部的元素一一映射,通過遞歸的方式,令全部的子集進入包含類型相同的數據,根據決策樹的結果對數據完成分類。
(二)神經元網絡方向
神經元按照一定規律排列,形成系統性的神經網絡,使用既定的數據處理方式對數據處理,并將分析結果儲存。本質上是在逼近原始數據與其特征之間非線性極強的映射關系?!?】直接使用確定的網絡分類對神經網絡實現過程進行跟蹤和描述。
四、數據挖掘、數據庫引用與數據處理過程
確定所要挖掘的數據,由于無法保障百分百的準確性,所以要對必要數據進行檢測。其次就行預處理并且做數據轉換,可加深分析同時轉換數據為分析模型。隨后提取模式,對已有的變量進行篩選后確定。對于不同的類型,使用方式不同,產生錯誤的概率降低。最后通過實際驗證后構建相應的模型,明確檢測的結果。以實際需求還對數據庫進行設計,實現耦合度低、聚合性高;伴隨數據庫的數據逐漸增加,保證數據庫的穩定運行;同時在數據庫系統的數據安全性只少有三個方面:機密性、完整性、可用性。為保障云數據庫的機密性,要進行數據加密或只加密處理而不處理。【2】
用戶在使用數據庫的時候各方面產生的問題可以解決,系統的各個功能模塊要相互關聯,保持一致性和完整性,并完善數據表的設計。將數據結構分為用戶層、應用層、分析層、存儲計算層以及數據整合層五個層級。在數據收集環節,結合標準Hadoop開源技術,對多種數據整合,進行統一的數據采集與匯總。在數據存儲計算環節,在底層構建結構化數據與非結構化數據混合存儲的數據存儲區,并結合不同數據的特性,按主題進行數據切割、關聯、打包,形成主題數據庫。【3】在數據分析環節,形成了可量化的分析模型。部分信息存儲的用戶表設計:
并在允許的范圍內對地區人力資源與社會保障部分進行訪問,單獨構建就業大學生的模型設計,對就業大學生的數據處理,對省內大學生和省外大學生的遷移的數據進行流程分析。主要以模型設計、數據處理流程分析、數據庫表設計為主要方面。其中使用Haddop根據定義好的map和reduce,進行正則匹配,匹配成功則把結果通過reduce聚合起來返回,Hadoop把程序分布到N個結點并行操作。【4】以其中map階段的輸入數據處理(Mapper)的部分代碼為例實現:
Public static class TokenizerMapper extends Reducer<Text,InWritable,Text,InWritable>
{private final static InWritable one = new InWriter(1);
Private Text word = new Text();
Public void map(Object key,Textvalue,Context,Context context)throws IOException,InterruptedException{
StringTokenizeritr = new StringTokenizer(value.toString());
While.set(itr.hasMoreTokens()){
word.set(itr.nextToken());
context.writer(word.one);}}
}
關于數據去重方面,主要將大文件分割成多個小文件,依次遍歷每個小文件,讀取其中存儲的字符,構建Trie樹,并在每個終止節點記錄改結點代表的字符串。
在海量數據集中進行篩選時,找到相應的數據是系統的重中之重。所以使用Bloom Filter和hash函數。以存在性判定為例,依次遍歷每個大文件中每條數據,遍歷每條數據時,都將它插入Bloom Filter,如果已經存在,在另外的集合A中記錄,如果不存在,則插入Bloom Filter,最后所得的集合A進行導出,即為所要查找到的集合。
五、結語
本文設計開發的高校畢業生就業系統,主要依附于大數據的數據處理,通過數據的處理篩選,為高校的應往屆畢業生提供就業指導方案,便于用戶使用。此外,相較于傳統的高校就業系統,添加了高校和各地政府的想切合,簽約后向高校進行反饋,同時使本地政府明確當地的人才組成。增加了畢業生的入職反饋用來當做其他畢業生選擇的參考方向,加強相關專業人士對合約的檢查,保障畢業生的基本權益。
【參考文獻】
[1]張蕾,章毅. 大數據分析的無線深度神經網絡方法[J]. 計算機研究與發展, 2016, 01: 68-79.
[2]程學旗靳小龍,王元卓等.大數據系統和分析技術綜述[J].軟件學報,2014.09: 1889-1908.
[3]何培育.基于互聯網金融的大數據應用模式及價值研究[J]. 中國流通經濟, 2017, 05: 39-46.
[4]劉丁發,葛雪鋒,鄧春華. Oracl數據庫應用與開發實戰[M]. 上海:上海交通大學出版社,2017.