李鳳
山西省太原市五一路公安廳
試論面向異構類型的大數據查詢優化措施
李鳳
山西省太原市五一路公安廳
互聯網的不斷發展,大數據時代悄然來臨,查詢優化是異構類型大數據需要解決的主要問題之一,對數據進行查詢優化,提高數據有效利用,本文探討了異構類型數據,并且對大數據的查詢方法Map Trim reduce與Impala有效的結合進行了分析。
異構類型 大數據 查詢優化
大數據時代下,數據的獲取更加準確,而數據的存儲與處理方式也在不斷的完善,因此對于數據的查詢與優化有著更高的要求,數據類型較為多樣化,查詢優化是數據分析處理中的難題,文中從Map Trim reduce與Impala的角度出發,對數據的處理進行了分析,能夠提高數據的查詢效率,因此必須做好查詢優化工作。
1.1 異構類型數據集成的模式
異構數據中集成的模式是從集成的具體應用方面來說的,在異構數據具體的應用中,為其提供全面的訪問視圖表,以便能夠形成數據的集成作用;還有復制模式,復制模式也就是Extract-Transform-Load,簡稱ETL,從另一方面來講也就是建設數據倉庫的方式,但對象并不只局限于數據倉庫,其是數據倉庫的重要組成部分,用戶通過數據源提取數據信息,然后經過一定的數據處理,制定出數據倉庫模型,將數據引入到數據倉庫模型中,以便能夠更好的利用。
1.2 異構類型數據集成的難點
異構類型數據體現在體系上的異構,數據源的類型具有一定的差異,異構往往會表現在數據描述上的不同,才能夠將數據源的異構性很好的體現出來,從另一種程度上來說,數據源面對同一種體系,也會存在不同模式上的異構性。異構類型數據集成的難點主要是體現在尋找數據源與目標的映射關系以及把握數據集成功能方面,在異構數據集成的過程中,尋找數據源與目標的映射關系具有一定的難度,在數據處理上較為復雜,而尋找映射關系能夠有效的減小這一方面的難度,它能夠使數據源與目標在語義方面保持一致。在數據尋找映射關系的過程中,除了尋找數據的語義,還要對數據語義進行分辨,根據數據源與目標的對應關系與分配的原則,才能有效的進行映射關聯。在功能方面,數據集成的功能很重要,其決定著數據處理的效率,集成功能是數據源達到目標的過程,滿足數據集成的需求。另外,在進行海量數據的同步工作時,需要合理把握時間,集成的功能主要體現在數據處理步驟方面,數據集成具有完整性約束的特點,完整性主要體現在數據的事務處理方法上,在數據操作過程中必須確保數據的完整性,數據出現異常,及時對異常的數據進行處理,對數據進行錯誤記錄時,及時檢查,發現數據記錄錯誤,應采取措施進行處理,以免造成不必要的影響。
2.1 H base的概念
是一個分布式的、面向列的開源數據庫,對數據能夠靈活存儲,也可講分布式存儲系統,H base是Apache的Hadoop中的子項目,它與其他關系數據庫有著很多不同,具有特殊性,通常較適用于非結構化數據存儲數據庫模型中。
2.2 Map Trim reduce與Impala查詢方法
通過利用Map Trim Reduce與Impala結合的查詢方法可以對數據進行合理的查詢,兩者之間各有各的特點,Map Trim reduce與Impala通過有效結合對數據進行編譯,從而來查詢數據的詳細信息,相對于Map Reduce與Impala結合來說Map Trim reduce更加具有靈活性,工作的處理效率很高,工作質量也能保證,在具體的操作過程中,Map Trim reduce對Impala輸入的數據會采取預先處理的方式,可以檢查有沒有多余的數據以及一些沒有價值的結果,提前將這些數據結果進行處理,減少了工作的流程,通過Impala在對其采取方法查詢,另外強調的是,對同一個處理結果進行查詢時,Map Trim reduce采取預先處理后的數據在HDFS具有持續性與永久性,因此Impala可以對中間處理后的結果采取查詢,不同于Map Trim Reduce對先前的Mapper進行預先處理,減少了工作環節,減小了工作量,提高了數據處理的工作效率,具有很大的時效性。
大數據時代下,數據信息的價值引起了人們的高度重視,因此大數據的查詢與優化具有特殊的意義,不斷的對大數據進行查詢優化能夠提高工作的效率,保證工作的質量,在實際的應用工作中,能夠很好的發揮其自身優勢,掌握好結構化與非結構化的數據處理方式,對數據查詢優化方法進行不斷的研究,有利于數據的有效運用,促進社會科技不斷發展。
[1]楊陟卓,黃河燕.基于異構關系網絡圖的詞義消歧研究[J].計算機研究與發展,2013,50:437-444
[2]舒昝,張曉冉.面向異構類型的大數據查詢優化研究[J].自動化與儀器儀表,2016,(4):199-200
[3]孔祥疆,馬玉鵬,李英凡等.異構數據庫中的數據類型轉換[J].計算機應用研究,2006,23(4):217-218,221