唐驕萍 尚海英
摘要:隨著信息技術的迅猛發展,學籍管理已發生了從紙制文檔管理向電子文檔管理的迅速轉化。在高校中,采用數據倉庫技術進行學籍管理是一個可行的辦法。本文介紹了數據倉庫、高校學籍管理現狀等相關內容,指出了數據倉庫建立過程中的關鍵技術,并且提出了將該技術與現代高校學籍管理相結合建立高校電子學籍數據倉庫的思路和注意事項,有重要的實踐意義。
關鍵詞:數據倉庫;學籍管理
引言
教育現代化要求教育信息化,教育信息化促進教育現代化。信息技術的迅速發展已經極大地改變了高校教學、管理的思想和手段。同時,信息共享的最大化和信息傳輸的快捷化又要求高校各部分間有著統一高效的資源管理系統,這種需要對高校管理系統提出了新的課題和挑戰。對于高校學籍管理采用何種手段以達到有效的管理即為面臨的課題之一,本文主要論述利用數據倉庫技術進行高校文檔管理的相關問題。
1 數據倉庫(Data Warehouse)的概念
在信息處理過程中,相關數據會不停地上傳信息化系統,比如ERP、CRM、Call Center、OA或者計費等,該操作后會產生大量數據。當進行數據查詢或報表時,經常需要跨系統作業,這種情況不僅資源消耗大,而且可能影響各個系統的正常運行。簽于這種狀況,人們就提出專門建設一個數據庫系統,把各個系統的數據拿到該數據庫系統進行準確的查詢和報表制作,這樣既方便又準確,而且不會影響業務系統。這個數據庫系統就是數據倉庫,它是全數據的集合。一般說來,數據倉庫主要由下幾個部分組成。
(1)數據倉庫數據庫它是整個數據倉庫環境的核心,用于存放數據并提供對數據檢索的支持。
(2)數據抽取工具其功用為從不同的存儲方式中得到數據,經必要的轉化、整理后再存放到數據倉庫內。對各種不同數據存儲方式的訪問能力是數據抽取工具的關鍵,否則造成數據倉庫數據缺乏。
(3)元數據它是描述數據倉庫內數據的結構和建立方法的數據。按用途可分為技術元數據和商業元數據。前者是數據倉庫的設計和管理人員用于開發和日常管理數據倉庫時所用的數據。后者從商業業務的角度描述了數據倉庫中的數據。
(4)訪問工具它為用戶訪問數據倉庫提供手段。主要有數據查詢和報表工具、應用開發工具、管理信息系統(EIS)工具、在線分析(OLAP)工具和數據挖掘工具。
(5)數據集市(DataMarts)它是為了滿足特定的需要,而從數據倉庫中獨立出來的一部分數據。在數據倉庫的實施過程中可以從一個部門的數據集市著手,再用幾個數據集市組成一個完整的數據倉庫。
(6)信息發布系把數據倉庫中的數據或其他相關的數據發送給不同的地點或用戶。其中,基于Web的信息發布系統是對付多用戶訪問的最有效方法。
數據倉庫主要有以下特點:
(1)面向主題性 數據倉庫中的數據是按照一定的主題域進行組織。
(2)集成性數據倉庫中的數據是在對原有分散的數據庫數據抽取、整理得到的,處理后的信息是關于整個單位的全局信息。
(3)相對穩定性數據倉庫所涉及的數據操作主要是數據查詢,并用于供決策分析,進入數據倉庫中的數據一般情況下被長期保留,并且對其的修改和刪除操作很少,通常只會定期加載和刷新。
(4)歷史性數據倉庫中的數據一般只加不減,是一個從過去到現在的歷史記錄,反映了一個單位各個階段的相關情況。
2 建立數據倉庫系統的關鍵技術
經以上論述,建立數據倉庫系統的關鍵技術就解決以下關鍵技術。
(1)數據抽取
數據抽取是從不同的存儲方式中得到數據,經轉換、整理后的數據再進入數據倉庫。由此可見要解決三個方面的問題。一是被抽取數據的存儲方式可能不同,那么怎樣完整地得到不同存儲方式中的數據。二是從不同存儲方式中得到的數據的格式可能是不同的,那么采用怎樣的方式進行轉換成統一格式的數據。三是得到的數據可能部分是不需要的,那么又如何進行去除多余,保存精華。
(2)存儲和管理
由于進入數據倉庫中的數據一般情況下被長期保留,并且對其的修改和刪除操作很少,這勢必造成數據的大量遞增,由此要解決海量數據的存儲空間問題。
數據倉庫中各數據表的數據量往往極不均勻,由此影響決策支持查詢的優化。利用普通查詢優化器獲取查詢路徑時,都存在所獲得的最佳查詢路徑并非最優的的路徑的情況,因此將普通關系數據庫改造成適合擔當數據倉庫的服務器更存在查詢路徑并非最優化的問題。
(3)數據呈現
數據倉庫中的數據最終的目的是呈現給用戶,便于用戶決策。在這一過程中應盡量以最直觀的、最簡單的方式將數據呈現給用戶。在此,要主要解決多維分析、數理統計和數據挖掘方面方面的技術問題,以便使多維分析更好地體現數據倉庫,數理統計更好地驗證對某些事物的假設并進行決策,數據挖掘更主動尋找出數據背后的規律。
3 高校學籍管理存在的一些不足
目前,各大學各職能部門的業務管理信息化已初具規模,但是仍存在以下不足。
(1)信息保存在單位內部,其他部門獲取某些公共信息較為困難,不能快速、有效地共享相關信息,部門之間橫向信息流通不暢。
(2)學校每年都要完成相關教育信息的匯總工作,從基層部門經層層填表整理,直到最終數據的收集統計,需要耗費很多的人力、物力、時間。
(3)很多高校的信息系統是面向事務的,而不具備決策支持能力,系統缺乏進一步擴展應用的能力。
(4)學籍管理系統數據不斷增加,機構內部可能存在的不同平臺和不同結構會造成數據處理和查詢的難度不斷增大。
因此,在高校內部建立一個統一的、高效的、充分信息共享的信息平臺很有必要。
4 數據倉庫技術在高校學籍管理中的應用
高校學籍管理系統存在缺乏整體統一規劃、橫向信息流通不暢、資源耗費大、擴展應用能力差和數據處理、查詢難度不斷增大等不足。而數據倉庫是一個面向主題的、集成的及隨 時間變化的,但信息本身又相對穩定的歷史的數據集合,它用于對管理決策過程的支持。所以,可以將數據倉庫和高校學籍管理結合起來,用數據倉庫具有的技術解決高校學籍管理中的不足。用它處理大量的數據資源,通過它的集成管理器將發展過程中離散的數據有效集中,以此不僅提高業務效率,而且保證機構歷史的完整性,集中處理歷史數據,獲得對某一問題歷史的完整認識。
5 如何建立高校學籍管理數據倉庫
學籍信息數據倉庫的建立過程是一個系統工程,需要參與各方協同工作,其中包括倉庫系統選型、模型設計、數據轉換等技術工作。一般說來,建立數據倉庫的步驟如下:
收集和分析業務需求;建立數據模型和數據倉庫的物理設計;定義數據源;選擇數據倉庫技術和平臺;從操作型數據庫中抽取、凈化、和轉換數據到數據倉庫;選擇訪問和報表工具;選擇數據庫連接軟件;選擇數據分析和數據展示軟件;更新數據倉庫。
在此,就有關高校學籍數據庫的以下幾個方面進行敘述。
(1)文檔應用需求分析
對于高校學籍而言,用戶多為教職員工及學生,主要涉及到學生的相關信息。所以,要對這些因素進行綜合的分析和考量,并以此反映正確的用戶信息,為調整文檔開放時間、確定文檔編研產品等決策提供信息保證。
(2)文檔數據采集
通過數據采集技術將不同來源、不同格式、不同構造的數據進行匯總,并經過數據清理轉換后集成到統一的文檔數據倉庫中,共同構成原始信息來源。要著力破除文檔信息孤島的藩籬,溝通各數據單位,實現文檔數據共享,同時需要由良好的文檔質量保證體系來維護數據質量。
(3)文檔數據轉換
采集后的數據五花八門,必須對其進行數據轉換,達到格式統一規范。在進行數據源特別是學籍數據庫建設的同時,應建立健全文檔數據質量控制體系,主要包括制定數據質量考核指標、校對制度、備份制度等,定期檢查,責任到人,盡量將質量管理的要求嵌入軟件功能之中,以期最大限度地保障學籍數據的質量。對于文檔數據的邏輯結構,則應當加強依賴于著錄標準的元數據庫的建設,可以以著錄標準為基礎,建立一定范圍內的元數據標準,并以此構成元數據字典。該字典提供數據項目的結構化信息,包括數據字段的名稱、數據類型、長度、默認格式等規范,并說明字段之間的聯系。在目前階段,元數據字典的建設以二次文獻信息項目為主,同時應加強文檔全文和電子文件元數據規范研究,為文檔數據倉庫的整合和文檔管理系統的深入設計提供規范標準。
6 結論
建立基于數據倉庫的高校學籍管理系統是以信息化推動教育信息化的重要手段,高校通過建設基于數據倉庫的高校學籍管理系統, 可以充分共享各類資源,提高辦公效率,提升學校的管理與決策水平,促進學校信息化的發展,推動學校的現代化水平,有著巨大的現實意義和實踐意義。
參考文獻
[1]陳濤、鄧斌,數據倉庫技術在高等學校的應用研究,山東農業大學學報(自然科學版),第36卷(4)591-594.
[2]錢毅,數據倉庫在檔案信息管理中的應用《北京檔案》2006年第4期 29-33.