姜技
摘 ? 要:在計算機系統運行以及研究環節中,會存在大量的規模效應,此類狀況難以避免,要想有效解決此類問題,就需要利用分布式的處理方式,開展對文件系統的分析。文章對分布式多維聯機分析過程(MOLAP)的數據模型進行了分析,從維編碼的算法、映射歸約(MapReduce)算法的實現、分析維的遍歷算法等方面作深入探討。
關鍵詞:分布式處理;多維聯機分析過程;維編碼算法
多維聯機分析過程(Multidimension Online Analytical Processing,MOLAP)技術通常是指以MapReduce程序為基礎,一般用于加強對計算機系統的處置和管理。在信息數據的多個層次和維度運行中,一般會借助遍歷算法以及維編碼的直接操作等流程,實現高質量運轉。在目前的發展環節,為提高總體的信息技術處置狀況質量,需要加強對MOLAP技術的使用。
1 ? ?數據模型
MOLAP具體的運行內容分為維和實際狀況兩個方面。在運行環節,核心部分是探尋在維和事實中所存在的映射聯系性。通常情況下,在管理過程中,使用較為傳統的ROLAP技術能將數據庫和星形模型相連,在發散自身維度信息的過程中,還會實現事實信息的有效存儲。采用外鍵存在聯系之內的映射關系反應會增加整體運行效率和成果。但是在實際操作和運行的階段中,工作人員還需要聯合實際性的操作狀況,促使操作流程和相對應的運行效率不斷提升。首先,在一種多維度的數據運轉模型處理過程中,將大量的數據開展分類處理時,維就會將多種偶數據放置在一個含有多種層疊聯系的數據構造中,并提供大量和數據之間的運行和篩選方式,核算具體的組織方法。在針對此環節的分析和研究過程中,通常需要事先將維具體內涵開展簡化處理工作,實現對多維度數據模型的研究和簡化,具體的簡化處理工作會受到以下環節制約。例如,設定A為維,則相對應的A含有維層次,但是具體維層次的具體數量會為1,A本質上是一種由多個N維級所構成的一種集合體方式,設定(i∈[1,n])是一種隨意的維級別,存在一種維度的屬性,含帶具體的數值。可以將A視為和其余級別位屬性數據相單獨構成的一種結構,在具體的同一類型的節點會存在不同子節點數。其次,在度量的設計中,將度量K設定為一種單獨的度量,遵循參考維度值方式將其視為在MOLAP環節中所研究的對象,在此環節中,往往會需要將較為細粒程度的度量作為在維度中存在的較小維度值。再次,在單元格的設定過程中,工作人員能夠在總體邏輯視圖環節中開展詳細的分析和研究,單元格本質上是通過不同種類的度量得以展現的,此類度量能夠以一種相同的維值作為后期研究對象,所以單元格經常會被視為度量的有效結合體。最后,在數據立方的定義中,會遵循上述的過程,數據立方往往是MOLAP內部所存在的一種多維度構造,是通過多種單元格搭建形成的。塊的定義通常是立方數據的思維分析圖,其內部每一個數據立方均可以依照維構建不同的數值[1]。
2 ? ?維編碼的算法
維編碼往往會涉及兩類形式,分別為二進制編碼算法以及十進制的編碼算法。二進制的編碼算法是采用對多個編碼的構造從而展現對多類維信息的概述,利用位移的方式展現對維的遍閱。但是在一般情況下,在此二進制的編碼系統內部中會存在個別漏洞,有少部分的設置還不完善。十進制的編碼運算較為清晰,有利于工作人員針對個級維的數據進行調整,保障后期的編碼運算工作,但是此步驟需要利用編碼以及維值內部含帶的映射狀況作調整。為防止在運行的環節中存在弊端,影響到后期的工作,就應當采用MOLAP技術利用十進制編碼算法,從而設定1和維A內存在的個維級別。
在實際的使用環節中,大量的數值均是采用維的數值形式得以展現,比如,在高度以及價格方面,此類數據的模式維會根據所述值域的不同種類開展具體劃分形式,多種劃分模式內部含有的步長會存在大量維級別。因此,數值的維符合現實約束狀況,但是還會存在少量的費數值,涉及多個部門以及城市和相對應的日期等環節。根據實際運行能夠得到空值和需要填補的維值數,在同一種關鍵節點中涵蓋相同數量的子節點。工作人員可以根據確切參考日期獲得相對應的數據編碼結果。在通常情況下,以月級別為前提的每個月天數均會存在差異性,但是在此環節中,要想實現對此種技術的應用和運行,需要加強對此環節的定義,并將具體的設定為每月均為31天的等量。因此,工作人員就會在二月份增加30號以及31號。維在具體的運行環節中均會變得復雜。為提升實際工作的質量和運行效率,需要將其進行轉化。維層次的計算和運轉方式有多種,涉及維值數法。為滿足先前的定義狀況,就需要采用上述方式。在技術人員處置的過程中,往往會采用合并以及取舍的方式,促使TCP-H的運行模式有序地進行簡化工作,只有將其轉變為相對應的星形模塊,才會使最后的運算結果符合單邊帶(Single Side Band,SSB)數據集中化的維模式。針對Supplier的維表進行研究,需要采用區域分化的方式展開,此類形式需要存在區域屬性才能實現后續的維度層次。在此環境下,應采用維值數的形式增加空值,從而滿足當前的定義形式,最終符合實際運用中的諸多形式[2]。
3 ? ?MapReduce算法的實現
OLAP算法在細節上涉及上卷算法以及切片算法等方式。在通常情況下,切塊算法以及切片算法利用最基礎的工程在一定限度的環節中展現和查詢,上卷算法以及下鉆算法在運行過程中的主要能力是范圍查詢以及對數據進行采集。OLAP具體的運行操作形式經常會被分化為4種類型,在實際應用中會涉及Target,代表著在等待分析過程中的眾多元數據,即Range,在等待分析的元數據階段中會存在Aggregation范圍。此類算法的使用,在早期往往會存在OLAP 4種屬性的組合,之后會經由電子計算機設備的系統性審驗處理之后,并實現其運行過程中的高效性,避免在執行任務的過程中,由于結果促使后期的運作出現中斷。在此過程中,會獲得輸入模塊的具體列表,此類狀況是利用對塊的選用,從而得以實現,將單元內部的格以反線性的方式予以處置,依照輸入字段開展對單元格數據的及時處理。如果單元格數據要想滿足前期的數據研究,就應當加強對其的后期化處置,但也會存在單元格無法滿足當前運行形勢的狀況,促使其運算數據遠遠不能滿足,單元格就會被拋棄,不能開展訪問工作。
4 ? ?分析維的遍歷算法
在DOLAP的維護工作人員的運行過程中,通常均會以單根數的方式實現計算,將其視為Td,但是在此過程中需要掌控ALL,并將其視為整體的Td根節點,將其視作第0級別,并將多個級別運行環節中的維值視作具體的子節點。在開展一系列的OLAP的運行階段中,工作人員應當對維值樹Td作遍歷操控,但是此工作頻率較強,實際的工作總量較多。例如,在Td降低或者上升的狀況下,將其的關系設定為i∈[1,m1],li+1ldi,之后將其中的li+1轉變為li。在此過程中需要明確vi+1=vi,此環節較為關鍵,采用制定兵編碼體制,從而就會得到之間的聯系性。此類上卷關系能夠采用編碼運算的方式展現在Td中的運算操作。
5 ? ?OLAP算法的剖析
通過針對OLAP的運算以及MapReduce做以研究的過程中,在其內部確立不同的視角,并在使用OLAP運算的環節中,促使其抽象的四元組可以實現分化展示,Target是分析數據立方的元數據研究,Range是立方環節中所采用的數據分析研究范圍。Aggregation通常是指相對應的聚集函數。在研究Result表示元數據的過程中,一旦Target內部的最高值較低時,就代表著上卷操作已經可以完工,輸入以及對外輸出的環節都是數據立方。工作人員需要明確查詢之后所出現的立方狀況,在此情況下,就會導致Result,Target兩者的維度均能夠有所差異性。通常情況下,會采用維度的分析從而實現對度量的詢問,針對OLAP運算狀況,可以明確具體的操作查詢的維度構造,Range本質上是屬于一個多維度的二元組,詳細分析在內部運行的數據范圍[3]。此類算法和傳統的MapReduce對比,需要采用較為特殊的多維模型以便于和后期的度量開展組織對比。在此過程中,所付出的存儲代價較低,有利于工作人員在實踐環節得到明確的信息,目前,此情況應用頻率較多。
6 ? ?分析數據的存儲
針對傳統的DOLAP技術進行分析,采用數據立方的存儲形式前期投資成本較高,并且運行過程復雜,特別是在運行高緯數據的過程中所采用的存儲方式,內部會含帶大量的維值,相對應的存儲成本較高。在傳統技術下,往往會使用訪問環節中的多維數組從而提升后期OLAP的運行,但在大數據環境下的具體操作較為困難。在多維運行環節中往往是采用計算機系統實現的,可以不采用存儲的方式,在現代的數據立方管理環節上存儲的代價較小。DOLAP技術往往會對維的方式進行簡化處理,保障在同一種級別上還可以實現上維編碼的十進制數。
7 ? ?結語
綜上所述,利用上述大數據運行過程中對DOLAP技術的研究,此類技術往往能夠采用特殊的多維模型對度量的方式開展運算,通過維編碼和遍歷算法的分析,能完成對維值數的上卷下鉆管制工作。在大數據的分析過程中,采用此類技術有助于保證計算機系統實現高質量運轉,從而有效推動社會的進步。
[參考文獻]
[1]劉琴.大數據分析下分布式數據流處理技術研究[J].軟件工程,2019(12):44-46.
[2]田英.基于大數據分析的分布式文件系統關鍵技術[J].信息與電腦(理論版),2019(15):140-141.
[3]王春凱,孟小峰.分布式數據流關系查詢技術研究[J].計算機學報,2016(1):80-96.
Abstract:In the process of computer system operation and research, there will be a lot of scale effect, which is hard to avoid. In order to solve this kind of problem effectively, it is needed to use the distributed processing method to analyze the file system. In this paper, the distributed MOLAP overview and data model are analyzed, and the algorithm of dimension coding, the implementation of Map Reduce algorithm and the algorithm of dimension traversal are discussed.
Key words:distributed processing; multidimension online analytical processing; dimensional coding algorithm