牛雪飛
(連云港師專,江蘇 連云港 222006)
高校檔案數(shù)據(jù)倉庫設(shè)計(jì)
牛雪飛
(連云港師專,江蘇 連云港 222006)
摘要:隨著信息化的進(jìn)一步發(fā)展,高校信息歷史數(shù)據(jù)達(dá)到相當(dāng)規(guī)模,為更方便管理數(shù)據(jù),提供決策支持,提出了數(shù)據(jù)倉庫管理方案,介紹了開發(fā)過程中的開源工具,重點(diǎn)分析了數(shù)據(jù)倉庫中管理平臺的設(shè)計(jì)。
關(guān)鍵詞:信息管理;數(shù)據(jù)倉庫;ETL
在信息技術(shù)高速發(fā)展的今天,許多高校都建設(shè)了規(guī)模不等的信息管理系統(tǒng),隨著數(shù)據(jù)的不斷增加,歷史數(shù)據(jù)累積越來越多,這就需要一種工具來整合各業(yè)務(wù)領(lǐng)域的應(yīng)用數(shù)據(jù),以充分發(fā)揮歷史數(shù)據(jù)的最大功能。數(shù)據(jù)倉庫能夠處理大量的數(shù)據(jù)資源,通過它的集成管理器能夠?qū)l(fā)展過程中離散的數(shù)據(jù)有效集中[1],為解決上述問題提供了技術(shù)上的保證。
2.1系統(tǒng)架構(gòu)
結(jié)合高校信息管理的特點(diǎn),設(shè)計(jì)了系統(tǒng)方案如下:
(1)數(shù)據(jù)庫平臺:數(shù)據(jù)庫平臺選擇SQL SERVER數(shù)據(jù)庫,WINDOWS為操作平臺,用于存儲系統(tǒng)所有的數(shù)據(jù),包括業(yè)務(wù)數(shù)據(jù)與元數(shù)據(jù)。
(2)管理平臺:管理平臺應(yīng)用程序部署在WINDOWS操作平臺之上,以JBOSS為應(yīng)用平臺,JAVA為開發(fā)工具。
(3)開發(fā)平臺:平臺采用MONDIRAN提供OLAP分析服務(wù),JPIVOT提供OLAP展示服務(wù),WEKA提供數(shù)據(jù)挖掘服務(wù)。數(shù)據(jù)展示以開源的BI工具為主,通過 BIRT來實(shí)現(xiàn)豐富的報表展示。ETL以開源的ETL工具KETTLE為主,并配置適應(yīng)于SQL SERVER數(shù)據(jù)庫的SQL 腳本做為數(shù)據(jù)抽取、清洗、轉(zhuǎn)換與加載的工具。
2.2管理平臺設(shè)計(jì)
數(shù)據(jù)倉庫管理平臺是數(shù)據(jù)倉庫的外圍程序的集合,其中包括元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)采集管理、ETL調(diào)度管理、數(shù)據(jù)倉庫監(jiān)控、數(shù)據(jù)安全管理與操作幫助七大子系統(tǒng)。
(1)元數(shù)據(jù)管理模塊。該模塊是存儲數(shù)據(jù)封裝、數(shù)據(jù)敏感度和相關(guān)人員隱私信息等相關(guān)元數(shù)據(jù)內(nèi)容的部分,主要功能是擴(kuò)充元數(shù)據(jù)對外服務(wù)接口內(nèi)容,向外部模塊或子系統(tǒng)提供元數(shù)據(jù)內(nèi)容和元數(shù)據(jù)分析服務(wù),為數(shù)據(jù)封裝和安全管理等數(shù)據(jù)倉庫管理模塊提供支撐。
元數(shù)據(jù)獲取層位于整個體系架構(gòu)的最底層,元數(shù)據(jù)獲取層抽象概括了元數(shù)據(jù)獲取的各種途徑。存儲層定義了元數(shù)據(jù)存儲所遵循的元模型,規(guī)范從獲取層得到的各類元數(shù)據(jù)的屬性要求和存儲格式要求,包括業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和管理元數(shù)據(jù)。功能層為前端元數(shù)據(jù)應(yīng)用提供了基本的功能支撐,主要包括元數(shù)據(jù)基本功能、元數(shù)據(jù)分析功能、元數(shù)據(jù)質(zhì)量管理、元數(shù)據(jù)服務(wù)接口和元數(shù)據(jù)權(quán)限管理五個部分。在元數(shù)據(jù)管理模塊功能層的支持下,元數(shù)據(jù)應(yīng)用層通過調(diào)用功能層的功能,對元數(shù)據(jù)管理的實(shí)際問題提供應(yīng)用解決方案。
(2)數(shù)據(jù)質(zhì)量管理模塊。是數(shù)據(jù)倉庫管理平臺的技術(shù)支撐平臺,主要對數(shù)據(jù)源接口、數(shù)據(jù)實(shí)體、處理過程、數(shù)據(jù)應(yīng)用和業(yè)務(wù)指標(biāo)等相關(guān)內(nèi)容的管控機(jī)制和處理流程,也包括對數(shù)據(jù)質(zhì)量管控和處理的信息總結(jié)和知識應(yīng)用等輔助內(nèi)容。數(shù)據(jù)質(zhì)量管理子系統(tǒng)功能按層次劃分為獲取層、存儲層、功能層和應(yīng)用層。
獲取層主要實(shí)現(xiàn)的是數(shù)據(jù)質(zhì)量數(shù)據(jù)的采集功能,是數(shù)據(jù)質(zhì)量功能和應(yīng)用的基礎(chǔ)。采集的數(shù)據(jù)范圍有:源系統(tǒng)關(guān)鍵數(shù)據(jù)、源系統(tǒng)接口信息、數(shù)據(jù)處理過程信息和業(yè)務(wù)指標(biāo)數(shù)據(jù)等。存儲層中存儲的數(shù)據(jù)質(zhì)量信息主要包括三個部分:數(shù)據(jù)質(zhì)量規(guī)則庫、數(shù)據(jù)質(zhì)量信息庫和數(shù)據(jù)質(zhì)量知識庫。功能層包含了數(shù)據(jù)質(zhì)量管理模塊的基礎(chǔ)功能,它為數(shù)據(jù)質(zhì)量管理的前端應(yīng)用提供了基本的功能支撐。應(yīng)用層為數(shù)據(jù)質(zhì)量管理各環(huán)節(jié)管控和處理提供具體應(yīng)用解決方案,主要包括源系統(tǒng)變更協(xié)同管理、源系統(tǒng)數(shù)據(jù)質(zhì)量稽核、數(shù)據(jù)質(zhì)量監(jiān)控知識應(yīng)用和問題處理知識應(yīng)用等。
(3)數(shù)據(jù)采集管理。數(shù)據(jù)采集管理為數(shù)據(jù)倉庫數(shù)據(jù)來源的總?cè)肟冢ㄔ獢?shù)據(jù)采集與業(yè)務(wù)數(shù)據(jù)采集,其中元數(shù)據(jù)采集又包括手工數(shù)據(jù)采集與工具或SQL腳本的數(shù)據(jù)自動采集,業(yè)務(wù)數(shù)據(jù)采集包括業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采集與手工報表的錄入與導(dǎo)入。數(shù)據(jù)采集模塊為數(shù)據(jù)管理平臺與數(shù)據(jù)開發(fā)平臺提供數(shù)據(jù)支持。數(shù)據(jù)采集模塊分為存儲層、功能層和應(yīng)用層。
數(shù)據(jù)采集的存儲層主要包括元數(shù)據(jù)存儲、業(yè)務(wù)數(shù)據(jù)存儲,其中業(yè)務(wù)數(shù)據(jù)存儲就是開發(fā)平臺中數(shù)據(jù)接口。按操作方式分可以分為手工數(shù)據(jù)獲取與系統(tǒng)數(shù)據(jù)獲取。從系統(tǒng)工具中獲取元數(shù)據(jù),包括ETL工具與BI工具,主要是獲取ETL工具中的數(shù)據(jù)抽取業(yè)務(wù)邏輯與BI工具中的權(quán)限與應(yīng)用元數(shù)據(jù)。應(yīng)用層主要包括的數(shù)據(jù)采集的設(shè)置管理功能、數(shù)據(jù)填報功能、數(shù)據(jù)導(dǎo)入功能、數(shù)據(jù)基本規(guī)范檢查功能與數(shù)據(jù)采集功能提醒功能。
(4)ETL調(diào)度管理模塊。該模塊為數(shù)據(jù)的ETL流程提供管理基礎(chǔ),同時為數(shù)據(jù)倉庫的監(jiān)控提供服務(wù)接口。主要進(jìn)行調(diào)度設(shè)置,設(shè)置各腳本執(zhí)行的先后順序、執(zhí)行時間、執(zhí)行周期,以及各腳本之間的依賴關(guān)系。記錄腳本執(zhí)行情況(開始、結(jié)束),腳本的出錯記錄等。該模塊分為獲取層、存儲層、功能層和應(yīng)用層。
(5)數(shù)據(jù)倉庫監(jiān)控模塊。該模塊為數(shù)據(jù)倉庫的運(yùn)行狀態(tài)監(jiān)控程序,對當(dāng)前數(shù)據(jù)倉庫的數(shù)據(jù)量、數(shù)據(jù)增量、磁盤容量、磁盤占用量、CPU與內(nèi)存的使用率、ETL過程的執(zhí)行時間與執(zhí)行效率等做實(shí)時監(jiān)控,也包括對監(jiān)控的信息處理與總結(jié),以及監(jiān)控信息的知識形成及應(yīng)用等功能。
(6)數(shù)據(jù)安全管理模塊。該模塊為數(shù)據(jù)倉庫的權(quán)限控制中心,其包括數(shù)據(jù)安全與用戶安全兩類,數(shù)據(jù)安全即對存儲在數(shù)據(jù)集市中的數(shù)據(jù)定義行級與列級權(quán)限,用戶安全即用戶對數(shù)據(jù)集市與用戶的訪問權(quán)限,數(shù)據(jù)安全管理是將數(shù)據(jù)權(quán)限與用戶權(quán)限結(jié)合集中管理的模塊,使數(shù)據(jù)倉庫的安全管理與BI平臺無關(guān)。
(7)操作幫助管理模塊。該模塊為數(shù)據(jù)倉庫平臺的知識管理模塊,其包括應(yīng)用操作幫助、業(yè)務(wù)知識學(xué)習(xí)、數(shù)據(jù)來源追蹤等,操作幫助管理模塊需求元數(shù)據(jù)的接口支持。
2.3集成訪問門戶設(shè)計(jì)
主要包括WEB、認(rèn)證、安全、門戶四方面的服務(wù),提供HTTP Web服務(wù)、門戶的用戶登錄、用戶認(rèn)證、門戶Web應(yīng)用、并提交用戶層請求到中間展示層,對用戶實(shí)施安全策略,為用戶管理報表、查詢文檔,提供個性化定制等。
隨著高校信息系統(tǒng)信息資源的不斷豐富,數(shù)據(jù)倉庫技術(shù)在信息管理中的作用會越來越大,它將使高校管理信息系統(tǒng)的信息服務(wù)能力、決策支持能力得到進(jìn)一步增強(qiáng)[3],為高校的信息化管理做出更大的貢獻(xiàn)。
參考文獻(xiàn):
[1]錢毅.數(shù)據(jù)倉庫在檔案信息管理中的應(yīng)用[J].北京檔案,2006(04).
[2]李潔,楊金會.滕振芳數(shù)據(jù)倉庫及數(shù)據(jù)挖掘技術(shù)在超市中的應(yīng)用[J].煤炭技術(shù),2012(02).
[3]顧瑞,盧加元.數(shù)據(jù)倉庫技術(shù)在檔案資源整合中的應(yīng)用[J].蘭臺世界,2012(02).