李玉平
(齊齊哈爾工程學院,黑龍江 齊齊哈爾 161003)
Excel有很多種可以對數據進行處理與分析,比如:數據處理函數、數據的合并計算、數據的匯總、數據的分類、數據的篩選等,這些處理方法可以實現快速的處理。除此之外,Excel還可以利用時間序列、回歸分析、概率統計、均值判斷等技術進行數據的處理工作。Excel的優勢是操作簡便,容易掌握,目前普遍被各大高校所應用。但Excel也存在明顯缺陷,即在數據的采集、加載、處理等環節上還存在精度低、準確性差的問題,需要借助其他的手段進行輔助,如VBA宏編程等。
在ETL數據處理方面,有一些數據維護處理工具,比如:Microsoft公司的DTS、Oracle公司的Warehouse Builder以及IBM公司的DataStage等。數據處理工具的優勢是可以獨立完成多數據源之間的數據維護、轉換以及抽取工作,但其缺點是想要處理復雜的數據局,需要利用DBA級別的數據庫技術進行幫助,尤其是針對一些數據需求復雜、時效性差、穩定性不足的數據轉換任務,依靠單一的ETL數據處理工具還是很難辦到[1]。綜上所述,在ETL數據處理工作中,依靠一種或者集中技術,很難完成工作目標。因此,想要提高高校數據處理工作,需要在頂層數據治理的框架下,利用建立數據處理標準對數據處理系統進行研發,利用科學的人員調配提升數據處理工作的準確性、可靠性與時效性。做到在高校計算機數據處理工作中,數據可以得到復用以及數據的實時共享,彌補單一ETL數據處理工具的不足。
在高校中進行信息化建設,所面臨的工作最難、問題最多的環節就是進行數據從復雜多樣的數據源中加載、轉換以及抽取出來。這是由于目前高校信息化建設中所應用數據都是來自不同操作系統、不同平臺、不同時期的長久沉淀資產,很多數據都出現了準確性差、數據難考證的問題,對于高校的教學工作以及管理研究工作都增添了阻礙。
數據報表工作的本質是ETL的一次閉環過程,主要包括數據的采集、加工以及上報3個環節。在高校中,數據報表既可以實現學校的具體工作,也可以反映學校的具體情況。教師或者學校管理人員可以根據報表的數據,發現學校、學生是否存在問題,并及時尋找解決方案。高效報表需要時效性高、專業性強的特點。但目前很多高校對于數據報表的數據庫管理混亂,缺乏統一標志,導致管理者在尋找報表時,不能根據ID快速獲取想要的報表,需要對文件進行逐一篩選,大大降低了工作效率。除此之外,在數據的錄入工作時,如果相關人員對于計算機的掌握程度不足,會導致錯誤率過高,影響學校管理者的決策。
學校信息系統的業務邏輯需要ETL數據處理工作的幫助,對于學校的財務部門來說,其需要利用教務系統、學工系統等數據進行查閱交換,來實現繳費管理工作。對學工部門來說,想要將各種獎學金、助學金、校園貸款等成功發放,需要對數據庫中的學生成績、家庭狀況等指標進行查閱,以確保學生滿足學校標準。這些業務往往都是由學校的業務部門進行完成。但由于數據梳理的規范不統一,導致不同數據庫對于同一類型數據的實現形式存在差異,且數據格式多樣,不能及時提供業務部門所需的數據,降低了各部門之間的辦事效率,加重相關人員的工作負擔。
高校的信息集成任務一般分為數據集成、門戶集成以及認證集成。目前,我國各高校的校園信息平臺基本搭建完成,學校的信息平臺所能提供的數據也愈發完善,信息集成的需求也就隨之提高。在實際操作中,業務系統和數據中心的集成過程,需要將數據標準進行修改,然后按照統一標準進行建模工作,并按照模型的規格完成數據集成工作[2]。這種工作模式由于其開發周期過長、投資成本大且數據集成過程復雜,導致系統集成工作會占用大量時間,且一旦業務信息系統要求過高,數據集成工作就會愈發困難,甚至出現崩潰。因此,想要將數據集成工作發展完善,需要校方利用快速的ETL數據處理。
ETL數據處理工作即在數據源中,進行數據的抽取、轉換以及加載過程,這個過程被稱為project,即一次工程。一次完整的ETL數據處理過程一般分為四個步驟,即:數據的加載、數據的抽取、數據的轉換以及日志系統。在每個模塊中,又需要配合多種ETL操作指令,這些指令被稱為task,即一個任務。想要保證每一個數據工程的質量,需要制定規范,規范的制作標準應該遵從高校的實際需要。規范需要按照三種不同形式來科學制定。首先,進行設計規范,設計規范包含數據的轉換規則制定、數據集的定義、數據源的規范定義以及數據處理流程的規范制定等。目前,ETL數據處理規范大多利用XML標準文檔進行操作。其規定一份完整的XML文檔需要利用每一項ETL數據處理工程來描述。在XML文檔中,一般包含一個根元素,即project。同時,在根元素下面,包含4個子元素,即:Log,Load,Transform以及Extract[3]。除此之外,對于高校ETL數據處理規范的開發指數,需要依據數據的實際用途進行規范。開發規范由結構規范、功能規范以及命名規范所組成。因為受到ETL數據處理平臺的幫助,技術平臺得以自主的開發、生成規范文件,以減輕工作人員的工作任務以及節省大量的時間。維護規范是用于用戶數據平臺的維護工作,為數據處理作業中的各種工作起到支撐、檢查作用。
為了增強數據的可靠性,需要進行嚴格的事務控制。ETL數據信息處理平臺一般分為4個層面來架構數據體系。第一層是即ETL的數據處理組件庫,其中擁有數據加載組件、數據轉換組件、數據清洗組件以及數據處理組件。第二層是ETL數據任務執行引擎,其可以幫助用戶進行數據的解析與執行工作,服務器可以根據當前的可用資源以及數據作業的任務量進行工作的協調平均,以保證數據作業可以同時進行多個任務。第三層是ETL數據作業編輯,其可以幫助用戶進行數據的完整作業處理,并進行保存工作,且操作簡便,用戶不需要掌握負載的標稱技術,一樣可以完成作業,為一些計算機基礎薄弱的人群帶來了極大的便利,深受此類人群所喜歡。第四層可以實現ETL作業的監控與調度,在此層中,用戶可以利用ETL數據任務執行引擎將數據作業過程中出現的問題以及作業完成情況如實匯報給底層的ETL數據監控中心,工作人員可以根據反饋,進行數據作業資源的合理分配。
在高校ETL數據處理工作中,數據的集成主要來自高校內部的數據報表、各個部門之間的數據流轉等。在高校中,負責計算機數據處理工作任務的工作人員可以按照任務種類分為報表填報人員、業務部門的數據流轉人員以及信息系統集成的技術專員。除此之外,還需要一些專業人員對平臺進行日常的維護檢測工作。這些人員所負責的任務往往是重疊的,因此需要做好崗位的分配,以避免出現重復工作,重復工作即使工作人員的工作壓力變大,也會影響其工作效率。因此,需要針對ETL數據處理用戶角色以及崗位的調整進行合理、科學的搭配。與此同時,高校的ETL數據處理具有跨專業、跨部門的工作特性,利用ETL數據處理工作人員矩陣的建立,可以幫助工作人員進行任務的分解與責任的界定,確保工作落到每一個人的頭上,并將工作內容細化,以保證工作井然有序的進行[4]。ETL數據處理工作是隸屬于計算機范疇內的工作,其工作量雖然不大,但是需要耐心、細致,因為一個數據的處理不當,可能會影響整體的工作效果。因此,各部門之間的管理人員,需要將工作內容明確下發,工作人員之間需要積極溝通,避免出現因溝通不暢導致工作重疊,影響工作效率,另外,管理人員需要及時核對數據的準確性,避免數據出現錯誤,實現多重保險。爭取各部門、各環節之間的協調運轉,提升工作效率,提高工作質量,使ETL數據處理工作可以在高校中平穩運行,為更多的學生創造學習空間,提升資源的質量與信息服務水平。
ETL數據處理工作,需要運用科學的方法,制定相應的規則,并找出其中所存在的問題,搭建ETL數據處理平臺,合理的調配各個崗位之間的工作,使ETL數據可以廣泛地應用于各高校的信息建設當中,幫助高校提升信息化建設水平。