張子軒,萬定生,朱 凱
(河海大學 計算機與信息學院,江蘇 南京 210098)
層次維編碼片段立方體生成算法應用研究
張子軒,萬定生,朱 凱
(河海大學 計算機與信息學院,江蘇 南京 210098)
數據量大、數據多維是水利普查數據的重要特征。根據水利普查決策分析的需要,在對數據立方體技術研究的基礎上,基于部分物化策略,提出了建立層次維編碼片段立方體(HDEFC)。利用維度屬性的概念分層特性,在層次維片段中采用混合索引(B-tree和Bit Code)技術對每個層次維的層次屬性進行二進制編碼,再利用生成的維度編碼代替原表中關鍵字,非層次維片段中采用倒排索引技術對每個片段子立方體進行物化,減少了多表連接操作,從而提高OLAP查詢效率。實驗結果表明,生成的HDEFC占用較小的存儲空間,查詢方法在面對高維的復雜查詢時具有優勢。通過建立水利普查數據分析系統,說明了該方法能夠有效地解決因數據量龐大、維度多導致的數據計算和查詢效率低下等問題,降低了物化水利普查成果數據立方體的時間和空間成本。
水利普查;數據多維;數據立方體;數據分析系統;層次維編碼片段
隨著全國水利普查[1]工作的開展,形成了迄今最為全面細致、完整系統的涉水基礎數據資源和規范權威的水利普查成果數據,如何對這些普查成果數據進行有效的分析與利用成為了制定正確水利建設方案的關鍵問題。
數據倉庫[2]作為一種新興技術被越來越多的領域所重視,數據挖掘[3-4]和聯機分析處理(OLAP)[5-6]都是基于數據倉庫的分析工具。……