拖洪華
(湖南環境生物職業技術學院,湖南 衡陽 421005)
?
云計算環境中的數據查詢處理方法研究
拖洪華
(湖南環境生物職業技術學院,湖南 衡陽 421005)
摘 要:當前,網絡技術發展迅猛,數據信息越來越龐大,而在如今的互聯網時代,幾乎所有的應用查詢都與數據息息相關,通??偸峭ㄟ^查詢相關數據以獲取想要的結果。因此,云計算環境下的數據查詢處理方法作為一種新型的互聯網應用模式,受到了工業界和學術界人士的密切關注。人們可以通過終端設備便捷地獲取云端服務,并以按需使用的方式獲得需要的存儲資源。現有的查詢處理技術在應用于海量數據時已經顯現出種種不足,這是因為當數據的量達到一定數量和級別,且查詢的用戶過多時,查詢數據就需要花費很多時間,嚴重的甚至會造成數據庫系統的性能減弱甚至崩潰,因此,這就需要進一步優化已有的數據處理方法。
關鍵詞:云計算環境;數據查詢;互聯網應用模式;終端設備;身份管理模型
云計算(Cloud Computing)是近年來新興的信息技術之一,它能高效地使用計算資源,更加智能化地實現大規模數據處理,為人類帶來高品質的IT服務??梢哉f,云計算的應用前景以及帶來的商業價值都是難以簡單衡量的,但不可忽視的是,云計算還存在一些技術層面的問題有待解決,如何有效地查詢到自身所需的數據,是云計算研究中亟須解決的問題之一?,F有的查詢處理技術在應用于海量數據時已經顯現出種種不足,所以本文主要圍繞云計算環境下數據的查詢方法進行研究,在了解前人研究的基礎上,深刻理解云計算下的數據存儲與管理特征,重點研究在基于身份鑒別的云計算環境下的數據查詢方案,并提出更加優化的數據查詢方法,在當前簡單易操作的查詢環境下,為用戶提供更好的云計算服務體驗。
近年來,網絡技術發展迅猛,網絡應用也是貫穿各個領域,云計算的大規模數據處理功能,廣闊的應用前景以及帶來的巨大的商業價值都使得云計算成為當前研究的重點,關于云計算的數據研究也是舉不勝舉。例如,丁琳琳等提出的Skyline查詢算法及優化,很大程度上使得在Map-Reduce框架下處理Skyline查詢的效率得到提升。而徐劍等提出的面向云計算的數據外包認證模型,則給出了數據查詢認證協議與數據更新認證協議。劉泰然在“基于三級存儲系統的海量數據查詢處理方法的研究”中在分析了已有的查詢處理方法后,研究了基于兩次分解的第三級存儲系統的海量數據的查詢處理方法,不僅提高了磁盤查詢計劃的執行性能,而且對第三級存儲器查詢處理的查詢優化、查詢調度、查詢執行以及結果收集等各階段的關鍵技術都進行了系統的研究。而楊柳、唐卓等人則在“云計算環境中基于用戶訪問需求的角色查找算法”中提出的基于用戶權限的角色查找算法,這種算法可以在云計算系統的角色中選擇一組數量最少的角色指派給用戶。
云計算環境中的數據查詢處理特點具有更為鮮明的特點,這與傳統關系數據庫中的數據查詢明顯不同。結合目前現有的云數據管理系統及前人相關研究,對云計算環境中數據的特性進行分析,指出云數據查詢處理技術的目標,并總結云數據管理系統中查詢技術的特征與面臨的挑戰,從而更好地研究云計算環境中的數據查詢處理方法。
云計算環境中數據的存儲和管理具備如下特點:
(1)海量性。如今是移動互聯網的時代,移動設備已經非常普及,傳感技術也越來越發達,社交網絡不斷擴大,云計算平臺存儲和管理的數據也十分龐大。
(2)異地備份。云計算的重要特征之一就是數據具備高可用性,可以通過對用戶透明的數據異地備份實現其高水平的容錯性。
(3)種類豐富?;ヂ摼W應用種類越來越多,如今流行的微博、微信等社等社交網絡就是個鮮明的例子,由于這些新興應用所處理的數據既有結構化數據,又有半結構化以及非結構化數據,因此,云計算的數據就顯得非常繁雜。
傳統的關系數據顯然無法滿足如今人們多樣化的應用需求,因此,在根據數據分布以及繁雜海量特性的基礎上設計出更加優化的查詢方案,從而可以向用戶提供“按需所取”、可靠的、高性能的數據查詢服務就成了當務之急。為實現這個目標,云計算環境中的數據的查詢處理技術需要達到以下目標:
(1)可用性。通常情況下,云平臺的硬件出錯的情況較多,而云數據管理系統在錯誤發生時既要保證數據不丟失,又要保證數據的讀寫操作能夠正常進行,這是云計算環境中數據查詢技術最基本的要求。
(2)可擴展性。云平臺的規模大小不一,規模從十幾個節點到幾千個節點都有。云計算“按需計費”的服務方式以及其規模隨著應用需求的變化而改變的特點要求云計算數據管理系統中的查詢及優化必須具備可擴展性。
(3)在異構環境運行的能力。為防止性能較差的節點影響整個云計算管理系統的運行效率,這就要求云數據的查詢處理技術要有在異構環境運行的能力。(4)高效的數據存取性能。雖然云數據管理系統的軟硬件成本較低,但其用戶對其處理海量數據的效率也是非常關注的。
(4)靈活多樣的用戶接口。這主要基于兩個方面的考慮,首先,考慮到用戶可根據業務需求自己定義數據查詢操作的方式,云數據管理系統要提供UDF(User Defined Function)接口;其次,為便于常用關系數據庫查詢語言的用戶不必重新學習新的接口或者編程方法,而原來基于關系數據庫的各種應用也可以平滑地轉移到云上,因此,數據管理系統還需要提供SQL接口。
為了描述方便,先給出如下的幾個基本定義:
4.1 定義1 數據擁有者(DO)
DO=
其中,ID即數據擁有者的身份,DT為數據擁有者所具有的數據類型;Cer指Dis所需要獲得的認證證書。該定義中,DO可對存儲在云服務器上的資源及時更新,從而實現數據查詢者的注冊、注銷等功能。
4.2 定義2 數據查詢者集合(DIS)
DIS=
ID即為數據查詢者的身份,POS為數據查詢者的位置;而SL則表示數據查詢者的安全等級。
4.3 定義3 查詢請求(IR)
IR =
在此定義中,Req_index是指用戶的查詢請求;datablock_index表示DIS數據查詢者集合,也就是請求的數據塊。
一般情況下,在云計算環境中,可以用DO
由于很多傳統方案并沒有很好地區分不同用戶的身份,這導致一定程度上,它并不具備處理云環境中海量用戶及訪問信息的能力,此外,這些方案在操作過程中會產生大量的身份信息,需要消耗大量的計算和存儲資源去維持身份與用戶間的指派關系。因此,本文首先提出了一種區別用戶身份的管理模型,將用戶的身份分為數據查詢者和數據擁有者,從而使得在云計算環境中可以根據不同身份用戶的需求,選擇出該用戶一次訪問中所需訪問資源的最少身份集合,指派給該用戶,以節省系統的資源,提高云計算環境下數據查詢處理的效率。
為更好地理解身份管理模型,可假設該模型中各個元素之間的關系如下:
(1)U/AR/ID/SP/DQ分別代表的是用戶,用戶對資源的訪問規則,用戶的身份,服務的提供者以及用戶對資源的數據查詢處理。
(2)IDA í ID′ ID,指不同身份間的多對多指派關系。
(3)ARA í AR′ ID,表示訪問規則與身份間的多對多指派關系。
(4)UA í U′ ID,表示用戶與身份間的多對多指派關系。
參照陳波的“基于等價變換的分布式查詢優化方法研究”,本文通過大量研究分析,認為用戶的身份主要具有3種狀態:第一種,就緒;第二種,激活;第三種,失效,其實這3種狀態并不是一成不變的,它可以根據用戶的不同的訪問需求進行變換。從以上關系指派不難看出,數據擁有者(DO)要實現對數據查詢者指派相應的身份,前提是必須要根據不同用戶的查詢請求來決定。這就意味著,在云計算環境中,首先必須根據用戶的查詢需求,并選擇權限合適的用戶身份,最后將身份數據最少的身份集合指派給用戶,這是有效區分不同用戶,最終優化龐大數據查詢的關鍵。
在云計算環境中數據查詢處理方式與傳統的關系型數據庫是截然不同的,海量的信息無疑增加了提取的難度,為滿足用戶隨時隨地獲取有價值的信息,享受云計算服務帶來的高效體驗,這就要求云計算的數據查詢方式需要不斷進行調整與優化。本文通過對云計算的相關研究,分析云計算環境下數據存儲與管理的特點,提出了云計算環境下的數據查詢目標與方案,同時還提出關于云計算的幾種相關定義,并根據用戶不同的查詢請求,實現從系統資源到身份數據之間的最優指派。此次實驗結果表明,本文的方案取得了較好的優化效果。之后的研究將針對云計算環境下的數據的分布方法,如何在保證高效率的同時兼顧全局的負載平衡以及數據集的安全性,備份與冗余存儲等方面進行研究。
[參考文獻]
[1]陳源,戴小鵬,張林峰.數據查詢優化算法綜述[J].計算機與現代化,2005(4):14-17.
[2]徐劍,周福才,陳旭,等.云計算中基于認證數據結構的數據外包認證模型[J].通信學報,2011(7):153-160.
[3]陳波.基于等價變換的分布式查詢優化方法研究[J].計算機工程與設計,2006(3):390-392.
[4]劉泰然.基于三級存儲系統的海量數據查詢處理方法的研究[D].哈爾濱:哈爾濱工業大學,2006.
[5]陳康,鄭緯民.元計算:系統實例與研究現狀[J].軟件學報,2009(5):1337-1348.
[6]薩師煊,王珊.數據庫系統概論[M].北京:高等教育出版社,2002.
[7]丁琳琳,信俊昌,王國仁,等.基于Map-Reduce的海量數據高效Skyline查詢處理[J].計算機學報,2010(10):1785-1796.
[8]陳康,鄭緯民.元計算:系統實例與研究現狀[J].軟件學報,2009(5):1337-1348.
[9]谷震離.基于SQL查詢語句的查詢優化方法[J].計算機時代,2005(2):39-41.
[10]楊柳,唐卓,李仁發,等.云計算環境中基于用戶訪問需求的角色查找算法[J].通信學報,2011(7):169-175.
[11]EUGENEFINK,GOLDSTEI A N,PHILIPJAIMEG H.CARBONELL.Search for approximate matches in large databases.IEEE International Conference on Systems [J].Man and Cybernetics,2004(5):5-7.
Research on Data Query Processing in Cloud Computing Environment
Tuo Honghua
(Hunan Vocational College of Environmental Biology,Hengyang 421005,China)
Abstract:At present,network technology has got developed rapidly,data information is more and more huge,and in today's Internet era,almost all applications and queries require data closely,almost always through other relevant data to obtain the desired results. Therefore,the data query processing method cloud computing environment as a new Internet application model,has been closely watched by industry and academics. People can easily access cloud services via terminal equipment,and in a manner to obtain the desired on-demand storage resources. Existing query processing techniques when applied to massive data has shown shortcomings,this is because when the data reaches a certain amount and level of the user and the query is too large,the query data will need to spend a lot of time,serious or even resulting in performance database systems weaken or even collapse,therefore,requiring further optimize the existing data processing method.
Key words:cloud computing environment;data query;Internet application mode;terminal equipment;identity management model
作者簡介:拖洪華(1973-),男,黑龍江哈爾濱,本科,高級實驗師;研究方向:大數據,云計算。