


摘? 要:大數據背景下,傳統的決策支持系統很難適應海量數據的存儲、處理以及實時決策的需求。利用大數據技術建立基于Hadoop的大數據決策支持系統體系結構,依據這個體系結構,結合高校畢業生就業決策支持系統的具體需求,建立基于大數據的高校畢業生就業決策支持系統,該系統對高校畢業生的就業以及高校專業的設置、招生計劃的制定都有較好的指導作用。
關鍵詞:大數據;Hadoop;決策支持系統
中圖分類號:TP311.52? ? ? ?文獻標識碼:A 文章編號:2096-4706(2019)15-0082-03
Design of Decision Support System for College GraduatesEmployment
Based on Big Data
DUAN Wei
(School of Math and Computer Science,Jiangxi Science & Technology Normal University,Nanchang? 330038,China)
Abstract:Under the background of big data,traditional decision support system(DSS) is hard to meet needs of massive data storage,processing and real-time decision-making. By using big data technology,a big data decision support system that system structure based on Hadoop is constructed. Then combining this structure with the needs of the decision support system of graduatesgraduate employment,the decision support system of college graduate employment based on big data can be constructed. It will benefit to help college graduatesemployment and instruct colleges majors setting and establishment of enrollment plan.
Keywords:big data;Hadoop;decision support system
0? 引? 言
大學生的就業一直都是社會各界普遍關注的社會問題。教育部頒布的《教育部關于做好2019屆全國普通高等學校畢業生就業創業工作的通知》明確指出“促進高校畢業生就業創業,事關廣大群眾切身利益,事關社會和諧穩定,事關高等教育健康發展”[1]。
隨著我國教育信息化步伐的不斷加快,各高校基本上都建立了與畢業生就業相關的管理信息系統,通過信息化手段服務于畢業生就業工作,但就目前應用狀況而言,這些系統的功能基本停留于簡單的信息采集、查詢等層面,對諸如畢業生的就業信息分析、就業趨勢的預測以及個性化就業推薦服務等深層次的應用,更多流于形式。因此,這些系統對指導高校畢業生的就業及預測未來的就業趨勢發揮的作用比較有限。目前高校就業管理部門對畢業生的就業指導主要依賴于個人的主觀經驗,導致就業指導的專業性不足。如何提高就業指導決策的科學性和專業性成為高校就業指導工作面臨的首要問題。
隨著“大數據”時代的來臨,大數據技術在社會各領域中日益發揮著重要作用,決策者的決策基于數據和分析而做出,而并非基于經驗和直覺。將大數據技術運用到高校畢業生就業領域,對于為高校畢業生的就業提供決策支持是十分有益的。
1? 決策支持系統簡介
決策支持系統(Decision Support System,DSS)是從管理信息系統發展而來的,利用數據和模型,通過人機交互的方式輔助決策者解決半結構化和非結構化決策問題的信息系統。傳統的決策支持系統由數據庫子系統、模型庫子系統、人機交互子系統三個部分構成[2],如圖1所示。
數據庫子系統:由數據庫和數據庫管理系統構成,存儲和管理了決策支持系統所需的各類數據。
模型庫子系統:由模型庫、模型庫管理系統構成,存儲和管理決策支持系統中的各類決策模型。
人機交互子系統:用戶通過該子系統與決策支持系統中的數據庫管理系統,模型庫管理系統對話,以查詢、操作數據庫,或運行模型獲得結果。
2? 基于Hadoop的大數據決策支持系統
2.1? 基于大數據的決策支持系統需要解決的問題
“大數據”時代的到來對決策支持系統的發展提出了許多新的要求,這些要求主要體現在大數據環境下決策支持系統中海量數據的存儲、處理以及實時決策這三個方面。傳統的決策支持系統所包含的數據多為結構化數據,這些數據一般都存儲在單結點的關系數據庫中,但關系數據庫在非結構化數據的存儲和數據庫的擴展性方面存在不足,不適合在大數據環境下進行包含多種非結構化數據的海量數據的存儲和處理。由于傳統的決策支持系統處理的數據量小,數據的查詢和模型庫模型算法的運行的時間都很短,因此傳統的決策支持系統僅能滿足數據量較小的情況下用戶實時決策的需求。在大數據環境下,由于涉及的數據量巨大,數據的查詢和模型算法的運行都需要花費很多時間,因此傳統關系數據庫和模型庫中的模型算法已無法滿足決策者實時決策的需求,需要從數據的存儲方式以及模型庫模型的實現算法兩方面解決基于大數據的決策支持系統的實時決策需求。
2.2? 建立基于Hadoop的大數據決策支持系統體系結構
Hadoop是由Apache基金會所開發的分布式系統基礎架構,其核心是能夠實現海量數據存儲的HDFS(分布式文件存儲系統)以及能解決大數據的并行處理、計算的MapReduce(分布式并行計算框架)[3]。Hadoop發展至今,已成為構建大數據平臺的主流技術,除了HDFS和MapReduce,還有許多基于Hadoop的軟件,為其提供多方面的業務支撐。如:數據倉庫Hive;NoSQL數據庫HBase;機器學習算法庫Mahout;數據遷移工具Sqoop以及大數據可視化工具(R語言,Python語言)等。
依據“基于大數據的決策支持系統”對海量數據的存儲、處理以及實時決策要求,利用Hadoop框架和相關技術采用分層設計方法對“基于大數據的決策支持系統”的體系結構進行設計[4,5],整個系統體系結構包括四層:基礎層、數據存儲層、分析層、決策支持層,系統結構如圖2所示。
基礎層:實現決策支持系統所需的各類數據的抽取、清理、轉換等預處理工作。
數據存儲層:實現決策系統所需的各類數據的存取、管理功能。為解決海量數據的存儲,數據存儲層將基礎層預處理后的數據存儲到Hadoop的HDFS中。為提高數據庫子系統的查詢、處理速度,在數據存儲層利用Hive數據倉庫結合HBase寬表數據庫,為基于大數據的決策支持系統構建一個低延遲的數據庫子系統。Hive是基于Hadoop的數據倉庫,它能使用類SQL的HiveQL(HQL)語言實現數據查詢操作,能使不熟悉MapReduce的用戶利用HQL處理和計算HDS上的結構化數據,因此十分適合針對數據倉庫的OLAP(聯機分析處理)操作。由于Hadoop通常都有較高的延遲,因此Hive不適合低延時的實時應用。HBase是面向列存儲的NoSQL數據庫,可以存儲結構化和非結構化數據,可進行快速查詢,但HBase數據庫不支持類SQL語句,因此可以將Hive和HBase結合,將基于大數據決策支持中所需的隨機查詢數據存入HBase數據庫,通過Hive利用HQL語句對HBase數據庫存儲的數據進行OLTP(聯機事務處理)操作,以滿足基于大數據決策支持實時決策的需要。
分析層:提供決策模型,以及針對數據庫和數據倉庫的OLTP和OLAP操作,輔助決策者決策。Mahout中提供了許多可擴展的機器學習領域經典算法,它在最近版本中提供了對Hadoop的支持,利用Mahout中這些經典算法結合決策支持系統的決策需求,可構建模型庫的決策模型,在Hadoop框架下運行,提高決策模型的運算速度,滿足基于大數據決策支持實時決策的需要。
決策支持層:這是一個人機交互子系統,決策者可通過人機交互調用分析層中模型庫的模型,對數據庫子系統中的數據執行OLTP/OLAP操作,獲取決策所需的信息,輔助決策者進行決策。
3? 基于大數據的高校畢業生就業決策支持系統
3.1? 可行性
大數據技術為提升高校就業指導決策的科學性提供了可能。目前各高校建立的與畢業生就業相關的管理信息系統中已存儲了大量歷屆畢業生就業的相關信息,各高校的就業信息網上也發布了最新的招聘信息。這些信息數據量大,數據類型多樣,既有結構化數據也包含了許多半結構化和非結構化數據,且每年都有大量的畢業生信息以及招聘信息產生,數據的增長速度非常快,但這些數據的價值密度低。因此,目前大多數高校所掌握的和高校畢業生就業有關的數據信息具備了大數據的“4V”特征,即數據體量巨大(Volume)、數據類型繁多(Variety)、產生速度快(Velocity)、價值密度低(Value)[6]。
當前大數據技術的飛速發展,為大數據的存儲、處理提供了可能。以Hadoop為代表的大數據技術為基于大數據的高校畢業生就業決策支持系統的設計提供了技術支持。對基于大數據的高校畢業生就業決策支持系統可基于Hadoop的框架來實現。
3.2? 基于大數據的高校畢業生就業決策支持系統的功能需求分析
(1)對高校畢業生就業情況進行分析,產生大學畢業生就業質量年度分析報告;
(2)對高校畢業生就業的熱點和發展趨勢分析;
(3)對就業整體趨勢進行預測;
(4)智能化的推薦,為高校畢業生進行個性化就業推薦[7-9]。
3.3? 基于大數據的高校畢業生就業決策支持系統的設計
高校畢業生就業決策支持系統按照“基于Hadoop的大數據決策支持系統”體系結構進行設計,其基礎層、數據存儲層、分析層和決策支持層的具體功能如下:
基礎層:數據來源于畢業生生源信息數據庫,畢業生就業信息數據庫,就業信息網站的招聘信息,雙選會,公務員、事業單位的招考信息等,這些信息數據既包含了關系數據庫中存儲的結構化數據,也包含了網站上的半結構化、非結構化信息?;A層需要對這些異構的數據進行采集、清理、預處理,再將其輸出到數據存儲層的HDFS中。
數據存儲層:數據存儲層不僅要能夠存儲海量的數據,更重要的是為其上層——分析層能夠更好地對數據進行分析提供支持。數據倉庫是為了決策需要而設計的,是面向主題的、集成的。數據倉庫的設計是數據存儲層設計的重點。在本系統中,依據其功能需求,設定數據倉庫面向畢業生就業的職業流向和畢業生就業的地域流向兩大主題。數據倉庫的邏輯結構采用雪花模型進行設計,如圖3所示,它包括兩個基本的元素:事實表和維度表,事實表用來存放要分析的全部數據,維度表中的維度是分析問題的角度(例如:性別、專業、學歷層次、地域、職位、行業、就業單位的性質等)。
分析層:針對數據庫和數據倉庫的OLTP和OLAP操作可生成決策所需的各類統計數據,但決策者使用決策支持系統不是直接依靠數據庫子系統中的數據進行決策,而是在很大程度上利用模型庫中的模型進行決策。因此,模型庫是分析層設計的重點。根據本系統的需求,按照“選擇模型/自定義模型—訓練模型—評估模型—優化模型”的步驟,利用Mahout中的算法建立模型庫中的模型,如:構建關系模型對大學生就業價值取向與就業流向(職業流向、地域流向)的關系進行研究,構建時間序列模型對就業整體趨勢進行預測,構建聚類模型對掌握高校畢業生就業的熱點進行分析,構建推薦模型對大學生進行個性化就業推薦。
決策支持層:利用Python實現該層的人機交互功能,通過人機交互調用模型庫中的模型或進行數據查詢,引導決策者進行決策。
4? 結? 論
大數據技術正在成為推動社會發展、進步的新力量,基于大數據的高校畢業生就業決策支持系統利用大數據技術分析就業形勢和畢業生特點,不僅能幫助畢業生調整就業預期/找準就業定位,還可以為高校的專業設置和招生計劃的決策提供指導。
參考文獻:
[1] 中華人民共和國教育部.教育部關于做好2019屆全國普通高等學校畢業生就業創業工作的通知[EB/OL].https://www.ncss.cn/tbch/2019jycytz/,2019-06-01.
[2] Sprague R H,Jr. A Framework for the Development of Decision Support Systems [J].MIS Quarterly,1980,4(4):1-26.
[3] 百度百科.Hadoop簡介 [EB/OL].https://baike.baidu.com/item/Hadoop/3526507?fr=aladdin,2019-06-01.
[4] 王振.基于Hadoop的大數據處理關鍵技術研究 [D].南京:南京郵電大學,2014.
[5] 任建新.基于Hadoop平臺的大數據應用系統架構的研究與實現 [D].北京:北京郵電大學,2014.
[6] [奧地利]維克托·邁爾-舍恩伯格.大數據時代 [M].盛揚燕,周濤,譯.杭州:浙江人民出版社,2013.
[7] 張亮.大數據時代下的大學生就業指導工作研究 [J].石家莊職業技術學院學報,2014,260(6):60-62.
[8] 李鵬,蔡治廷.大數據時代的大學生就業工作探析 [J].黑龍江高教研究,2015(5):86-88.
[9] 楊銳,夏紅.大數據時代下大學生就業數據信息的應用研究 [J].中國電力教育,2014(20):119-120.
作者簡介:段薇(1974.12-),女,漢族,湖南祁陽人,副教授,碩士,研究方向:數據挖掘。