練佳熠
摘要:隨著科技的發展,許多技術應運而生,對人們的生活和工作產生了巨大影響。目前,隨著高校對于社會需要的重視,越來越多的高校開始關注學校的就業政策,并且積極運用數據倉庫技術。在高效的就業決策中,因為數據倉庫技術的運用,高校的就業變得更加高效。因此,該文就數據倉庫技術在高校中的應用情況進行研究,并提出一些想法。
關鍵詞:數據倉庫技術?高等院校?就業決策?應用研究
中圖分類號:??TP311.1???文獻標識碼:A???文章編號:1672-3791(2022)07(b)-0000-00
隨著社會的進步發展,高校的就業也成為各大學生重要關注的話題。為了促進高校學生就業,了解學生就業的想法,對于工作的選擇因素等,高校漸漸采用了數據倉庫技術,以便促進高校就業的有效性。通過建立以就業為主題的多維數據庫,許多高校漸漸分析出學生就業的一些情況,為學校的就業宣傳,專業設置等提供數據支持。
1?數據倉庫簡介
20世紀80年代,科學家第一次提出數據倉庫的概念,認為數據倉庫是“面向主題的,繼承的數據集合”。數據倉庫還具有隨時變化的特點,可以用于存儲大量的歷史數據[1]。對于決策人員來說,數據倉庫雖然看起來沒有意義,但其實在具體的實際運用中,卻能夠實現用戶快捷迅速地查找和分析。相比SQL技術,倉庫數據可以提供有效的數據,并且將其展示在決策人員面前。這將很大程度上促進數據的有效性和實用性,為決策人員的決策有著積極的影響作用。一般而言,數據倉庫數據具有以下特點。
首先,數據倉庫直接面向主題。基于對數據分析的驅動,與傳統的數據驅動不同,數據倉庫可以以優化事務的方式來構造數據。這對于某個處于不同事物數據庫的主題數據而言,是非常不利于決策者進行決策的。但這也并不意味著數據處理需要基于某個主題的數據去訪問許多不同數據庫中的數據集合,而是數據倉庫會直接將這些數據集中在一個地方,使決策者可以直接合理地檢索到數據倉庫中某一主題的所有數據。這不僅有利于數據的分析,同時也能為決策者節省大量的時間,實現數據的高效處理。
其次,數據倉庫具有數據的集成性,可以有效而全面地分析數據。一般而言,相關數據收集得越完整,決策處理出的結果就更加具有可靠性。然而,在許多企業等內的業務數據庫中,許多數據處理都是分散型而非集成的。這使得數據處理更加繁瑣,不利于數據處理的高效性[2]。這許多都是因為數據不一致,或者有非結構化數據等原因所導致的。要實現集成,就必須要對數據進行準確到位的清洗,甚至去轉化一些數據。這并不是說靜態的集成,而是一個動態的集成過程。雖然靜態的集成數據也可以集成,但是一旦數據發生了變化,原先的集成就失去了意義,因此,必須是基于動態的集成去處理數據。而數據倉庫就是實現了動態的集成,通過將一定周期的數據進行刷新,從而為決策者更新最新的數據,使決策者做出準確及時的決策。
除此之外,倉庫數據的數據還具有穩定性,并且也能隨著時間的變化而變化。在數據倉庫中,許多數據一旦被寫入了便沒有辦法再進行改變,這非常不利于決策者的決策調整。所以,可以將數據倉庫看作一個虛擬的只能讀取的系統,且數據倉庫的數據存儲也是以分批的形式進行。這使得數據倉庫可以定期提取并且增加數據的記錄。只是一旦有數據進入,其痕跡就不能被刪除,也就是數據會一直存在。所有的用戶都只能以讀的形式去訪問整個數據倉庫,而不需要在開發讀寫上耗費精力[3]。同時,因為數據只能增加也無法刪除,這使得數據擁有了時間維度。其實,數據倉庫就是基于記錄系統去進行聯結,將記錄系統中各個的瞬態聯結成動畫,使其能夠展現出系統的整個運動過程。
2?總體架構設計
一般而言,倉庫數據的系統總體構架主要為源系統和數據集等。在高校就業中使用數據倉庫,就是將就業系統的數據經過清洗,轉換的過程,然后加入到數據倉庫中。經過數據倉庫的數據再經由前端數據進行瀏覽和分析,并最終形成用戶對數據的分析處理[4]。這樣可以讓用戶很快地了解數據,并且基于數據進行決策,從而提升決策的質量和效率。一般而言,數據倉庫的系統主要包括4個層次的結構。
2.1數據源
這是整個數據倉庫系統的基礎,可以為整個系統提供數據。無論是企業內部還是外部系統的數據,都可以在數據源中進行存放。
2.2數據的存儲和管理
數據存放和管理可以保證數據的穩定性,為數據處理提供多時間維度的數據。一般而言,數據倉庫的數據組織管理和傳統的數據庫非常不同。這也決定了數據倉庫的核心是基于外部數據的形式去決定的。通過外部數據形式的情況,去合理搭建產品和技術去構建數據倉庫的核心,這不僅需要對于數據倉庫的了解分析,同時也能實現對于數據的合理清洗,集成等。尤其是可以按照主題進行組織,為數據倉庫的數據范圍提供合理的組織形式,這非常有利于企業對于數據的管理。
2.3?OLAP服務器
通過有效集成需要分析的數據,OLAP數據可以組織出多維模型,以實現數據倉庫的多角度多層次分析。同時,還可以基于分析去合理判斷數據的趨勢,以便決策者做出決策。一般而言,數據趨勢的實現,可以具體分為3種情況。其中,ROLAP基本數據和聚合數據都存儲在數據源ROBMS里面,而MOLAP則在多維數據庫里存放,HOLAP的基本數據放進ROBMS里面,而聚合數據則放于多維數據庫。
2.4?前端工具
前端工具主要在各種報表工具,數據挖掘工具等里面。其中,數據分析工具主要與OLAP相聯系,而數據挖掘工具等主要和數據倉庫相聯系。
3?面向就業主題的數據倉庫
高效的就業分析主要以學生的成績等,實習情況等來進行分析,從而預測出高校畢業生的就業情況?;跀祿}庫分析處理出的數據,學??梢圆扇∫幌盗写胧﹣泶龠M學校高效的就業,比如調整招生計劃、合理調整畢業分配、關于高校就業的宣傳等。
3.1就業主題的數據倉庫模型設計
數據倉庫的模型分為星架型和雪花型架構。星架構有事實表和維度表兩部分,它是一種用來表示關系的數據庫架構。通過事實表和維度表,可以很好地表示一對多的關系。而雪花架構是一種表示關系的數據架構,也有事實表和維度表兩部分。通過事實表和維度表,可以很好地構成數據倉庫模型的基本設計,實現用戶對于數據的模型構建。兩者模型的不同點在于,雪花模式可以實現數據更好地規范化,能夠減少數據的冗雜,為數據倉庫節省空間。然而,這也可能導致雪花結構瀏覽性能的降低,無法像星架型結構的數據一樣為決策者提供大量的數據支持。而高校就業的數據量龐大,不僅需要數據倉庫去分析處理相關數據,同時也需要實現對于數據的瀏覽功能。而星形模式的數據倉庫就可以彌補雪花模式瀏覽性能不足的缺陷,為更多的數據瀏覽提供穩定且快速的數據支持[5]。因此,在高校就業的數據倉庫設計中,應該采用星形模式的數據倉庫,這樣才能有利于對于龐大數據的瀏覽。
3.2確定事實表
許多高校都具有許多事實數據,根據維表的特點和分析的就業決策主題,高校就業數據倉庫的事實維表可以設置為15個維表,主要包括畢業年份、院系、計算機水平、性別、班級、地區、學位、學歷、實踐能力、專業、單位性質等方面。其中,不同的維表代表學生不同的情況,而對于一些學校的具體特殊情況,學校也可以具體去調整自己的事實表維度,以便對該校學生就業情況的特殊原因以及情況分析。
3.3高校就業數據倉庫的ETL創建
KTL即是高校對數據的抽取、清洗和轉化、裝載。通過將數據抽取出來,數據倉庫可以排除掉一些數據的缺陷,并且去進行數據的轉換或者匯總,經過清洗數據源中的數據,可以按照之前預定好的數據倉庫模型,將數據加載到數據倉庫中。雖然整個過程很復雜,但卻是數據倉庫的重要內容。
目前,許多高校都使用數據倉庫,并運用到就業系統中處理與就業有關的一些數據[6]。通過將考生的標準化成績、平時的表現、就業情況、學歷代碼等錄入到系統中,數據倉庫可以很好地去分析數據的差異,比如:不同年度同一專業的就業情況變化等。基于各種數據的差異,數據倉庫可以很好地標準化學生就業的情況。只要標準化了就業情況,高校就很容易實現用戶對于數據的分析需求,從而更快地分析出適合該校就業的各種情況。通過標準化分數,高??梢院芎玫亟鉀Q因為各種差異等所導致的就業情況影響。這樣不僅有利于各個考生的成績能夠更好地進行比較,同時也有利于高校更加迅速分析出職業與該校的適合程度,從而實現高效就業。
在標準化就業情況之后,系統還會對就業數據進行其他細節的處理,以便數據倉庫更加清晰的認識數據,并且采取合適的行動[6]。首先,系統可以將標準化的數據增加年度屬性。一般而言,就業報到系統中的數據都是當年的就業情況,并沒有自帶年份。這不利于數據倉庫去分析不同年度的就業情況差異,無法很好地實現對于就業的年份差異。因此,在系統中加入對于學生就業的年代,可以增加其他年代學生的就業情況,從而促進高校更精準清晰地認識到學生的就業情況。具體而言,就是利用MS?DTS工具,可以將不同年代學生的就業情況進行匯總,并且得到最終的匯總表,以便數據分析處理。其次,在處理數據時,系統還可以為考生的生源地、畢業類型、就業地、職業等方面進行詳細的描述,以便高校深刻認識到學生的情況。
而在獲得了許多數據后,因為數據太多,一些數據可能存在不必要或者冗雜多余的情況。這時,就可以利用系統,去合理清洗掉各種不需要的數據,以便滿足數據倉庫對于數據的需求。比如:在“理工”“普通理科”等不同類別中,數據倉庫可以統一為其提供數據清洗,以便有效數據加載到數據倉庫中。只有將有效的數據加載到數據倉庫里,才能真正實現對于數據利用的高效性,從而實現對于數據倉庫的真正作用[7]。
5?基于數據倉庫的分析
在對數據倉庫進行分析時,可以采取多種手段從多方面進行處理。大部分時候,決策者都是希望通過圖形化的形式去查看和分析數據,在這種形式下,可以通過Python的Numpy、Pandas、Keras等分析庫先對數據倉庫中的數據進行分析,再使用Matplotlib、Bokeh、echarts等技術對分析結果進行可視化展示,以此實現花費少量的時間精力就能得到數據分析的結果[8]。除此之外,數據倉庫還可以提供多維度的數據集,讓用戶能夠通過快速的轉換數據的行列來實現對于數據源的分析,幫助決策者進行決策[9]。
具體而言,在對考生成績進行分析時,決策者可以基于分析情況去合理處理學校的就業工作。比如:基于某一地區就業總人數的情況,決策者可以去調整當地的廣告宣傳、工作人員數量調配等。如果就業人數多,便可以多做宣傳,加大工作人員的數量。如果就業人數少,則可以總結其原因,來改變就業的策略,以便下一年更好地就業。對于學生而言,就業的情況和學校有著很大關聯性,學校宣傳更加到位,與學生就業安排的相關工作人員越多,學生便更容易就就業,學校的就業情況就會更好。因此,學校必須嚴格去分析數據倉庫,基于數據倉庫合理做出決策調整,以便高校更好地就業。
而在分析學生實習情況時,決策者便可以基于學生的實習時間,地點等去分析出考生的實習情況,通過比較不同地區不同專業學生的實習情況,合理分析出考生的就業意愿。這對于高校的就業工作、專業設置、課堂安排等都有著重要的作用,可以很好地促進學校教學資源和就業資源的合理安排等。
6?結語
總而言之,高校的就業工作離不開數據倉庫技術。對于學校而言,基于數據合理分析學生的就業情況,可以高效地提升學校的就業工作效率,同時也為學校的就業工作提供數據指導。通過將數據進行處理,比如:把學生就業情況進行標準化,并且進行合理的數據清洗等,就可以實現有效的數據加載到數據倉庫。之后,數據倉庫可以很好地實現對于就業情況的分析。最后決策者便可以基于數據倉庫的圖形化界面和多維度分析表格,去合理做出與就業相關的決策。無論是對于學生的成績,實習情況,還是未就業情況等,只要利用數據倉庫,高校都可以很好地分析并處理相關的數據,而學校也可以基于此去合理調整工作安排。這不僅有利于高校掌握該校就業的情況,同時也能實現自身專業設置,學校課程設置甚至來年招生情況的安排,從而促進高校更好地進行發展。
參考文獻
[1] 楊仁懷,郎川萍,張麗霞.數據倉庫技術在高校招生工作中的應用研究[J].現代計算機:專業版,2014(6):72-76.
[2] 曾萍,韋杰.數據倉庫技術在高校信息化建設中的應用研究[J].軟件,2014,35(5):108-110.
[3] 劉衛星.數據倉庫技術在高校信息系統中的應用研究[J].電子技術與軟件工程,2014(18):209-210.
[4] 張申.?數據倉庫技術在高校招生就業決策中的應用研究[D].北京:北京工業大學,2019.
[5] 張維國.數據倉庫技術在高校教務系統中的應用[J].福建電腦,2019,35(9):33-38.
[6] 王吉.淺析數據庫技術在高校畢業生就業管理工作中的應用[J].數字技術與應用,2020,38(2):52,54.
[7] 曾遠柔.大數據技術在高校信息管理系統中的應用策略研究[J].數字通信世界,2020(3):177.
[8] 張軍,王芬芬.數據倉庫技術在高校數據統計與分析系統中的應用研究[J].智能計算機與應用,2019,9(3):122-125.
[9] 虞水,季興東.數據倉庫技術在醫院信息管理及決策中的應用研究[J].智慧健康,2019,5(36):18-19.