林嘉燕(福建信息職業技術學院,福建福州 350003)
構建基于大數據的高校就業信息服務系統
林嘉燕
(福建信息職業技術學院,福建福州 350003)
當前,高校就業形勢嚴峻,如何利用大數據技術改善高校就業信息服務是一個值得研究的問題。通過分析大數據的定義、關鍵技術和高校就業信息服務現狀,本文提出構建一個基于大數據的高校就業信息服務系統,詳細闡述基于大數據的高校就業信息服務系統的業務流程,并給出系統的基本架構。
大數據;就業;非結構化;分布式;推薦
隨著畢業生總體人數逐年提高,就業形勢日益嚴峻。原有的高校就業信息服務系統所能提供的支持微乎其微,急需找到一個更好的方案來改善當前的局面。與此同時,隨著互聯網信息技術的發展,特別是移動互聯、物聯網和云計算等新興技術的不斷成熟,各行各業、各個職能領域中所蘊含的大數據能量正在逐漸迸發出來。維克托·邁爾·舍恩伯格在《大數據時代》一書中指出:“大數據帶來的信息風暴正在變革我們的生活、工作和思維,大數據開啟了一次重大的時代轉型”[1]。因此,在當前階段,研究如何利用大數據思維方式來構建一個全新的高校就業信息服務系統,以便于更好地服務于高校應屆畢業生的就業工作、推進高校教改工作和教育管理工作的長足發展,顯然具有積極的現實意義。
1.1 大數據的定義
從運營式系統階段的被動生成到用戶原創內容階段的主動生成,最后到感知式系統階段的自動生成;數據產生方式不斷變革直接導致數據生成速率迅速增長,繼而引發數據存儲單位從Megabyte、Gigabyte、Terabyte、Petabyte到Exabyte的發展,最終催生了大數據時代。雖然近幾年大數據日漸流行,但是目前對于大數據的定義尚未形成公認的定論。
維基百科對大數據的定義:大數據是指使用常用軟件工具獲取、管理和處理數據所耗時間超過可容忍時間的數據集[2]。全球知名的咨詢公司麥肯錫研究院(MGI)于2011年6月發布名為“Big Data:The Next Frontier for Innovation,Competition,and Productivity”的研究報告中對大數據的定義是:大數據指大小超過常規數據庫工具獲取、存儲、管理和分析能力的數據集,同時,并不是一定要超過特定TB規模的數據集才能算是大數據[3]。IBM提出大數據的3V模型,即大數據具備海量性(Volume)、多樣性(Variety)和高速性(Velocity)三個特征:海量性指數據量巨大,數據規模達到TB級及PB級;多樣性指數據類型繁多,包括結構化數據和非結構化數據;高速性指數據創建、處理和分析的速度持續在加快[4]。目前,接受度比較高的是IBM重定義的4V定義,也就是在3V的基礎上添加了真實性(Veracity)。
1.2 大數據的存儲
大數據時代數據處理的理念不再著眼于數據的抽樣、精確性和因果關系,轉而關注數據的全體性、高效率和相關性[1]。數據從傳統單一的結構化形式發展到結構化、半結構化和非結構化三種形式并存、數據訪問的高并發度、數據處理形式多樣化都需要有一種新的存儲方式。
1.2.1 文件系統
文件系統是一個系統的基礎,大數據系統因其獨有的特性需要一個全新的文件系統來支撐。產業界和學術界都非常關注大數據文件系統的研發。常見的大數據文件系統有GFS、HDFS、QFS、PVFS、Ceph、Lustre等。其中GFS是Google推出的一個可擴展的分布式文件系統,用于大型的、分布式的、對大量數據進行訪問。它運行于廉價的普通硬件上,可提供容錯功能和高性能服務[5]。雖然,Google公布了實現GFS系統的論文依據卻沒有開放源代碼。2005年秋天,受到資助的Hadoop項目在GFS基礎上研發出了Hadoop文件系統HDFS。目前,HDFS已經成為應用最為廣泛的開源文件系統。
1.2.2 數據庫技術
數據庫(Database)是按照數據結構來組織、存儲和管理數據的倉庫。大數據環境下的數據結構有結構化數據、半結構化數據和非結構化數據;傳統的數據庫難以滿足多樣化的海量大數據的需求。因此,在大數據環境下,針對不同數據結構的數據往往使用不同的數據庫技術。針對傳統結構化數據可以采用傳統的RDMBS,而對于半結構化數據和非結構化數據可以采用NoSQL數據庫。常見的NoSQL數據庫有Bigtable、Hbase、Cassandra、HyperTable、Redis、MongoDB、CouchDB、LevelDB等。
1.3 大數據的處理
根據應用場景不同,可以把大數據處理技術分為三大類[6]。
1.3.1 批量數據處理
批量數據一般是靜態存儲的可重復利用數據,這類數據精確度較高,但同時因為數據量龐大,往往價值密度低。Google的GFS+MapReduce組合就是一個批量數據處理系統;而在此基礎上開源實現了HDFS和MapReduce的Hadoop更是被廣泛使用的經典批量數據處理系統。目前,鑒于MapReduce存在的單點故障和性能瓶頸,已經推出Hadoop MapReduceV2(Yarn)分布式計算框架。
1.3.2 在線數據實時處理
與批量數據不同,在線數據往往對實時性要求很高,可分為流式數據和交互式數據。典型的在線數據實時處理系統有Google的Dremel、Berkeley的Spark、Twitter的Storm。
1.3.3 圖數據處理
圖形數據庫是一種特殊的NoSQL數據庫,它利用圖形理論來存儲實體之間的關系信息,大量應用于社交網絡和推薦系統中。圖數據作為一種獨特的數據,它的處理復雜度遠高于前面兩種。目前,比較典型的圖數據處理系統有Google的Pregel系統、Neo4j系統、Twitter的FlockDB、Apache的Giraph和微軟的Trinity系統。
根據教育部公布的數據,2016年全國高校畢業生人數達到765萬的歷史新高,就業形勢日漸嚴峻。但是,目前整個高校的就業信息服務現狀不容樂觀。縱觀各省各高校的就業信息服務,基本以線上就業信息網和線下人才招聘會相結合的方式。線上就業信息網主要分為省畢業生就業公共網(或信息網)和各個高校就業信息網兩塊,無論是省畢業生就業信息網還是各高校就業信息網基本只涵蓋就業相關政策和用人單位招聘信息兩塊內容。
2.1 功能簡單,資源整合度低
高校作為畢業生進入社會前校園生活的最后一站,各個職能部門都擁有大量的畢業生資料。可惜的是,這些信息資源往往是孤立的,沒有很好地整合以便提供更好的服務。作為就業信息服務工作重中之重的高校就業信息網基本只發揮了就業信息發布窗口的作用。
2.2 信息發布不及時,針對性低
智能手機的普及極大地加速了移動互聯網絡的發展,當前的互聯網已經不再是單一有線網絡形式的天下,而是一個隨時隨地滿足個性化需求、多種網絡并存的網絡時代。而當前的就業信息服務系統的服務狀態仍然處于如下情況:從學生的角度看,往往是通過學校通知獲知相關就業政策和招聘信息再去上網查看;從高校就業信息發布部門的角度看,往往都是簡單地在網站上掛出,信息是否傳播到位是個未知數。可見,在就業信息發布這個環節中,信息的實時性、針對性和使用率是很低的。
3.1 基于大數據的高校就業信息服務系統業務流程(圖1)

圖1 基于大數據的高校就業信息服務系統業務流程
為了完善健全高校就業信息服務,順應移動互聯網時代隨時隨地隨身的個性化需求,本文提出構建基于大數據的高校就業信息服務系統。下面從學生、用人單位、教師、教育管理部門和學校四個角度分析該系統的業務流程。
3.1.1 學生業務流程
新生報到時用身份證號碼或者手機號碼給每個新生注冊一個永久唯一的系統賬號。(1)入學:新生入學培訓時,各專業老師依據系統導出的本專業典型崗位分析報告進行職業引導。(2)在校學習:經過職業引導的學生在校進行導向性的知識學習、技能學習和能力培養,并階段性地錄入過程材料。(3)畢業:系統根據積累的學生個人檔案信息、用人單位信息進行大數據處理與分析;在畢業生求職過程中,推送就業指導信息和對口專業的招聘信息,并根據系統數據分析結果給出個性化的精準職位推薦,有效縮短畢業生求職時間,提高就業效率。在這個信息推送上,可以有網頁、郵件、短信、微信等方式全方位覆蓋,確保信息及時送達。同時,系統提供一個專門版塊供應聘者記錄筆試、面試、體檢等方面的應聘經驗,為后來者引路。(4)職業生涯:畢業生在職業生涯過程中及時向系統反饋職位變動情況以及職位體驗等職業生涯信息,以便于完善系統的數據樣本,做出更可靠的數據分析結果,形成一個良性循環。
3.1.2 用人單位業務流程
每個用人單位都可以向系統申請一個唯一的賬號,在系統中錄入單位性質、主營業務、聯系方式等信息并實時發布崗位需求信息;系統經過大數據分析給出精準的人才推薦,有效縮短用人單位招聘周期。
3.1.3 教師
任課教師可以根據系統產生的本專業技能需求報告進行培訓進修,提高自身的專業素養;同時,及時調整本專業課程授課知識和專業培養方案,以便于適應社會人才培養需求。
3.1.4 教育管理部門和學校
教育管理部門和學校可以在系統上實時發布就業相關政策并通過多渠道進行信息推送;一步到位,不需要再逐級傳送下去,大大提高信息傳播效率。同時,相關部門階段性地獲取人才需求報告和就業分析報告,適時調整專業設置和招生比例。
3.2 基于大數據的高校就業信息服務系統構建
基于大數據的高校就業信息服務系統是一個整合各個部門數據,進行大數據全樣本分析的新型系統,旨在從海量數據的相關性基礎上高效地給出個性化服務。在這里,我們根據系統運行過程中的功能,把系統的大數據管理過程分為四個階段:大數據采集、大數據存儲、大數據處理和大數據分析。
鑒于高校就業信息服務系統中的數據處理基本是批量數據處理的特點,本系統采用當前最為流行的Hadoop 2.0架構——HDFS+HBase+ MapReduceV2(Yarn),如圖2所示。

圖2 基于大數據的高校就業信息服務系統架構
3.2.1 大數據采集
從學生、用人單位、教育管理部門三個入口采集信息。這些信息包括學生基本信息、學籍信息、獎懲情況、社會經歷、技能、興趣愛好、職業生涯流動信息、用人單位基本信息和招聘信息、就業相關政策等。
3.2.2 大數據存儲
存儲分為文件系統和數據庫技術兩個部分,本系統使用的文件系統是Hadoop文件系統HDFS。從數據采集結果可以看出,采集到的數據有結構化數據、半結構化數據和非結構化數據。在數據庫技術上使用行存數據庫和列存數據庫相結合的方式,結構化數據采用傳統關系數據庫RDBMS,半結構化數據和非結構化數據采用在Bigtable基礎上行開源實現的列存數據庫HBase。
3.2.3 大數據處理
大數據處理階段主要依靠改進后的Hadoop 2.0框架中的MapReduceV2(Yarn)分布式計算框架。以Yarn為獨立的資源管理和調度系統,MapReduce為分布式計算框架;同時,兼容Spark作為系統的一個補充,增強系統的實時性。
3.2.4 大數據分析
大數據應用階段主要根據前期處理結果進行深度學習、數據挖掘得出數據背后隱藏的有價值的信息,推送給學生、教師、教育管理部門/學校和用人單位。此階段用到的工具包括Hive、Pig、Mahout和Chukwa等。其中,Hive和Pig主要做離線分析,Mahout具有擴展的機器學習和數據挖掘算法庫,主要用于做推薦挖掘,Chukwa用于監控整個集群系統。
大數據在席卷互聯網的同時,也在改變著我們的思維方式和生活方式。人們通過大數據技術看到了普通數據背后隱藏的無限價值。本文提出的基于大數據的高校就業信息服務系統,就是以整合高校資源為前提,分析數據、提取蘊藏在數據背后的價值;讓數據發聲,以期推動高校就業信息服務的長足發展。此外,不容忽視的是大數據技術尚未成熟,它是一把雙刃劍,利用大數據技術挖掘出潛在價值固然重要;同時也要注意把控數據使用過程中的安全問題。
[1]維克托·邁爾·舍恩伯格,肯尼思·庫克耶.大數據時代[M].杭州:浙江人民出版社,2013:1,27,45,67.
[2]Big Data[EB/OL].(2015-03-16)[2016-09-20].http://en.wikipedia.org/wiki/Big_data.
[3]A.H.B.James Manyika,M chui,B Brown,et al.Big Data:the next frontier for innovation,competition,and productivity[J].McKinsey Global Institue,June 2011.
[4]R.Bryant,R.Katz,E.Lazowska.Big-Data Computing: Creating Revolutionary Breakthroughs in Commerce,Science and Society[J].Computing Community Consortium,2008:1-15.
[5]GFS(Google文件系統)百度百科[EB/OL].(2015-11-29)[2016-09-20].http://baike.baidu.com/item/GFS/1813072.
[6]程學旗,靳小龍,王元卓,等.大數據系統和分析技術綜述[J].軟件學報,2014,25(9):1889-1908.
Construction of Graduates Employment Information Service System With Big Data
LIN Jia-yan
(Department of Software Engineering, Fujian Polytechnic of Information Technology,Fuzhou Fujian 350003,China)
The current situation of graduates employment is pretty disappointed, and how to improve the employment information service via Big-Data is worthy of study. Through the analysis of the key technology of Big-Data and the situation of the graduates employment information service, this paper proposes to construct a graduates employment information service system with Big-Data. It elaborates the business flow and the basic framework of the system.
Big-Data; employment; unstructured; distributed; recommend
2016-11-28
林嘉燕(1984- ),女,講師,碩士研究生,從事計算機網絡技術研究。
TP311
A
2095-7602(2017)06-0038-05