朱杰
隨著教育信息化的發展,產生了越來越多的應用,這些應用多種多樣,方便使用的同時也造成很大混亂,這就需要通過一定的方式實現它們之間的清洗融合。本文介紹了智慧校園的發展現狀、數據標準及清洗規則的建立,以實例詳細闡述了數據清洗實現的過程,并對標準數據的使用及數據清洗方式的多樣性給出了提示。
1引言
網絡信息化建設發展到今天,多數人已經熟悉了這樣的環境,大學是網絡信息化應用的前沿單位,早就建設了大量相對獨立的應用系統如辦公、財務管理、教務管理及資產管理等。由于歷史與技術的原因,這些業務系統的建設往往是以部門級的建設為主,各業務部門根據自己的需要進行部門級的信息系統建設開發,而各部門的信息化程度各不相同,所用的開發環境和數據庫也各不相同,造成數據信息孤島、數據信息的冗余和不一致,很難在這些信息集上進行整個學校的全面信息查詢和決策分析等數據展示、共享與同步更新。要整合各系統的數據,首先要建立一個標準。
2數據標準的建立
采用的數據標準建立原則是:
①向上靠原則:已有國家和部委標準的使用國家和部委標準,沒有國家和部委標準的使用教育廳或衛生廳標準,沒有教育廳或衛生廳標準的使用學校標準。
②繼承性原則:盡量與國家或上級主管部門的標準保持一致性。
③前瞻性原則:以現有系統為基礎,著眼于長遠的發展需求,使信息標準具有較長的生命周期。
數據元素的質量是建立堅實的數據結構基礎的關鍵。只有對數據正確建立分類和編碼,做好標準化工作,確認數據可信,才能夠實現對數據有效的管理。
海量數據通過數據標準化方案,對不同來源數據進行查找、檢索和比對,查找和檢索有關數據對象及其含義、物理位置、特征和使用情況等方面的信息,幫助企業建立企業信息分類編碼標準,落實信息化建設的“統一標準”原則,從根本上解決“信息孤島”問題,為后續的信息系統建設提供指導標準。
3清洗規則建立
建立清洗規則就是確定數據分類標準的來源,確定要哪個系統的哪一部分作為一個類的標準,并使用它去處理其他系統中提取的有關這一部分的數據。經過多個系統多個部分的處理,把全部的系統數據整合到統一的標準,使各系統中的數據相互關聯,為數據的查詢、分析等提供基礎數據環境。
4數據清洗實現


按照學生依教務為標準,職工依人事為標準把教務、人事、財務等數據抽取到數據中心數據庫。第一次獲取從原始數據表獲取,獲取的數據全部添加到數據中心對應的數據庫表,以后從變動庫獲取數據,從變動庫獲取的數據按照變動類型(增加、刪除、修改)對數據中心表數據進行更改。


把非標準數據表獲取到的數據按照對應關系表轉換標準后,寫入數據中心相應的數據庫表。
5標準數據的使用
通過數據中心標準的數據可以進行關聯查詢、統計等,形成多種統計報表或圖表,產生多種分析數據供用戶使用。
查詢上面表中某一專業學生繳費情況:
select * from stud_ major left join staff_pay on stud_ major. stid = staff_pay. sid where stud_ major. major=”1011”;
當然根據服務器的處理效率,也可以分別查詢單個數據表的數據裝入數組或向量型變量,通過程序統計處理,然后給出結果。
6結束語
數據清理方式多種多樣,使用時要結合具體情況分析。例如上面的“數據中心人員編號對應表”適合接口系統比較少的情況,擴展時需要添加字段,改為只有“標準編號”“序號”“原始編號”3個字段,擴展性有了很大提高,但清洗效率會比上面差。各種數據表可以轉換標準后保持字段數量不變,也可以根據使用情況進行組合建立新的數據表,方便后期大量使用,而使用頻率特別高的數據建議建立獨立數據表。
基金項目:山東省重大科技創新工程項目(2018CXGC1501)