鄭博文,趙逢禹
(上海理工大學 光電信息與計算機工程學院,上海 200093)
異構數據索引是在異構數據空間中建立索引,進而提供高效、便捷和多樣化的數據查詢。隨著互聯網和云計算技術的飛速發展、涉及的數據量急劇增加、信息化水平的不斷提升、各種各樣的數據流種類和規模也持續增長的情況下,最優異構數據索引是解決在海量數據中快速查詢出所需要的數據的一個最直接也是最有效的方法[1-4]。
異構數據索引已有許多研究成果,文獻[5]中,Nafaa Jabeur在用CAN路由的方法來增加分布式系統的可擴展性,實現異構數據索引的建立。文獻[6]中,Benjamin Shapiro利用R-tree和Bloom-Filter相結合的方法實現異構數據索引的建立并提高點查詢和范圍查詢的效率。文獻[7]中,Song Baoyan基于可變網格技術提出了VGHI二級異構索引結構,通過在每個子空間上構建M樹管理自身的數據,這種二級異構索引有效地管理了分布式系統和每個子空間的索引。文獻[8]中,Traversel通過在改進的MapReduce框架上構建文件索引來提高查詢處理的效率,提出了結合Overlay結構和B-tree索引的二級索引結構CG-index,能夠有效地支持云環境上的查詢處理操作。
盡管異構數據索引的研究取得了許多成果,但還存在一些問題。(1)Song Baoyan提出的VGHI二級異構索引[9]結構和Nafaa Jabeur利用CAN路由的方法建立的索引結構太過龐大,占用過多的物理空間,無法高效地建立最優異構數據索引;(2)Benjamin Shapiro利用R-tree和Bloom-Filter相結合構建異構數據索引的方法和Traversel通過MapReduce框架構建索引的方法雖然能快速地構建索引,但運用R-tree構建的索引是通過對索引進行范圍劃分,其原理是非葉結點存儲其所有子結點的區域范圍,這種區域范圍使索引結構較為簡單,在海量數據中無法根據異構數據索引進行快速的精準查詢。……