999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

超市數據倉庫雪花模型的設計與應用

2008-12-31 00:00:00雷啟明
商場現代化 2008年25期

[摘要] 以連鎖超市數據倉庫數據模型為典型案例,在分析星型模型的優勢和不足的基礎上,提出了把星型模型擴展為雪花模型的基本方法。并通過聚集事實表等途徑,使星型模型和雪花模型的特色和優勢得到有效的應用。為數據倉庫的聯機分析處理和數據挖掘奠定了基礎。

[關鍵詞] 連鎖超市 數據倉庫 星型模型 雪花模型設計 雪花模型應用

信息技術的迅速發展和企業管理決策的迫切需要,使數據倉庫技術應運而生。

1993年,數據倉庫之父W.H.lnmon將數據倉庫定義為:“一個面向主題的、集成的、隨時間變化的、非易失性的數據集合,用以支持管理層的決策”。數據倉庫的概念,決定了數據倉庫特有的數據組織模式和廣泛的應用前景。

數據模型是開發和構建數據倉庫(集市)的基礎;是聯機分析處理和數據挖掘的重要條件。星型模型和雪花模型是基于關系數據庫的數據倉庫的兩種典型的數據模型。目前,數據倉庫星型模型已被廣泛應用。而雪花模型的實用價值還處在進一步認識和開發階段。

一、連鎖超市數據倉庫星型數據模型

“星型模型”是數據倉庫廣泛采用的數據模型。它能準確、簡潔地描述出實體之間的邏輯關系。建立數據倉庫的數據模型,一般都是在對應用主題分析的基礎上,首先建立星型模型。現以超市數據倉庫為例,認識和理解數據倉庫星型模型。

一個典型的星型模式包括一個大型的事實表和一組邏輯上圍繞這個事實表的維度表。

事實表是星型模型的核心,事實表由主鍵和度量數據兩部分組成。星型模型中各維度表主鍵的組合構成事實表的主鍵。事實表中存放的大量數據,是同主題密切相關的、用戶最關心的度量數據。“銷售”是超市的主題,因此,在事實表中,要準確記載各超市所有商品的銷售數量、營業額、利潤等度量數據。

維度是觀察事實、分析主題的角度。維度表的集合是構建數據倉庫數據模式的關鍵。維度表通過主鍵與事實表相連。用戶依賴維表中的維度屬性,從事實表中獲取支持決策的數據。圍繞銷售主題,連鎖超市數據倉庫有以下典型的維度及其屬性:

客戶維:在客戶維中,建立了客戶的基本信息、是否為會員客戶、客戶居住地域等屬性。

商品維:商品不僅決定了超市的經營范圍,商品的結構、品牌、質量直接影響營業額。在商品維中,設計了商品代碼、商品名稱、商品類別、品牌名稱、包裝類別以及商品的基本信息等維度屬性。

時間維:在數據倉庫的多維數據結構中,時間維往往是不可少的一個維度。因為每項“銷售事實”都是在一定的時間或者時間段內發生。針對需求,時間維采用日、月、季、年四個屬性。

連鎖店維:各連鎖店承擔了全部商品的銷售業務。連鎖店的服務質量直接影響企業的競爭力、銷售業績和企業利潤。連鎖店維中建立了連鎖店名、所在地域等維度屬性。

根據分析主題和需求,建立連鎖超市數據倉庫(集市)星型數據模型,如圖1所示。

圖1 連鎖超市數據集市星型模型

二、星型模型的優勢和不足

1.星型模型的優勢

星型模型在數據倉庫中具有很大優勢:

(1)星型模型圍繞一個確定的主題,體現了數據倉庫對數據結構和組織的要求;

(2)星型模型簡單、清晰的結構準確反映了用戶的需求,使用戶易于理解;

(3)星型模型維度表包含了用戶經常查詢和分析的屬性,優化了對數據庫的瀏覽,在維度表和事實表之間沒有任何“迷宮”。使查詢的過程變得簡單而直接。

(4)星型模型為OLAP提供了良好的工作條件,使OLAP能通過星型連接和星型索引,顯著提高查詢性能。

2.星型模型的不足

星型模型也有明顯的不足:

(1)星型模型是非規范化的,星型模型以增加存儲空間為代價來提高多維數據的查詢速度,造成很大的數據冗余;非規范化的、含有大量冗余的維度表,會使數據切片變得更加復雜。

(2)由于星型模型中各維度表主鍵的組合構成事實表的主鍵。當星型模型的維不能滿足要求時,維的變化是非常復雜、耗時的。

(3)維度屬性的復雜形成的大維度問題。大維度中的長文本字段占用存儲空間,維度數據不易更新和維護;向大維度表填充數據難度增大;對事實表的查詢涉及大維度表時,會影響效率。

(4)當維的屬性復雜時,處理維的層次關系比較困難。

(5)對“多對多”關系,星型模型無能為力。

三、連鎖超市數據集市的“雪花模型”設計

“雪花模型”是針對星型模型存在的不足和數據分析處理的需要,在星型模型的基礎上拓展而來的。將“星型模型”中的維表規范化,對維度表、特別是大維度表的屬性按層次和類別進行分解,形成一些局部的層次區域,就得到一個以事實表為中心的“雪花模型”。

在連鎖超市數據倉庫的星型模型中,客戶維和商品維都是典型的大維度。這是因為:大的連鎖超市,客戶維和商品維很深,累計可能有數以萬計的客戶和上萬種商品;客戶維和商品維很寬,根據需要,這兩種維可以有多個維度屬性。

將大維度表“雪花化”方法是:

1.按維屬性的層次分解

維度的層次性體現在用戶觀察數據的粒度不同。例如:在數據集市中,商品、商品品牌、分類是商品的三個不同層次。客戶維中,客戶、會員客戶、分地域的客戶是客戶的三個不同層次。

2.按維的屬性類別分解

維屬性之間有一些是互不關聯的屬性,例如:商品的品牌和包裝,是否為會員客戶,他們之間無層次關系。把維的屬性類別分解形成維的局部星型關系。

3.將非分析數據進行分離

維度表中的有些屬性與事實表中的度量數據無直接關系。例如:商品的詳細信息,大小、規格;會員客戶的基本信息等。將這些信息分離成一片“雪花”,使維表和事實表盡量“精練”。提高了多維查詢的速度。當我們需要這些信息時,才到這片雪花中查找。

總之,雪花模型要在星型模型的基礎上,描述出屬性間清晰的層次和分類關系。把圖1所示的連鎖超市數據倉庫(集市)星型模型“雪花”化,就得到該集市的雪花模型。如圖2所示。

圖2 連鎖超市數據集市雪花模型

四、數據倉庫的“雪花模型”的應用

從形式上看,雪花模型比星型模型結構復雜,但設計好的雪花模型卻有星型模型難以替代的應用價值。

雪花模型是星型模型的衍生。在研究雪花模型的應用時,要用雪花模型的優勢彌補星型模型的不足;還要充分繼承星型模型的優勢,揚長避短,使數據模型能在構建數據倉庫和開發應用中更好地發揮作用。

1.雪花模型在處理大維度方面的應用

數據倉庫的大維度問題雖然可以通過事實表來體現,但這種方法導致事實表極為龐大且難于管理,當層次定義發生改變時,事實表需要重新設計和構建。

雪花模型解決了星型模型中復雜的大維度問題。通過對維度表的屬性按層次和類別進行分解;將非分析數據進行分離,使大維度表得到有效的規范化處理,較好地消除了數據的冗余,從而使事實表的字段數和總長度減小,以節省存儲空間。

2.雪花模型在建立聚集事實表方面的應用

事實表中數據的細節程度或綜合程度的級別稱為數據“粒度”。粒度是數據倉庫事實表的重要的特征。不同的需求,對粒度要求不同。

數據集市需要保留最低層次的細節數據。以滿足數據抽取、信息查詢和數據挖掘的需要;另一方面,為提供決策支持,需要多方面的高粒度的匯總數據。因此,需要把使用頻率高的匯總數據存放在聚集事實表中。雪花模型維度表清晰的層次關系為建立聚集事實表創造了條件。

根據聚集的概念,在有m維的雪花模型或星型模型中,可以建立多個n度聚集事實表(n<=m)。所謂n度聚集,就是把m維事實表中的n個維度提升到一定的層次,其余的(m-n)維保持最低層次。這樣生成的事實表同相應衍生出的維表形成一個簡明的星型模型。例如:

為了分析會員客戶對各種品牌商品的購買情況,在雪花模型中對客戶維和商品維進行二路聚集即可。如圖3所示。

為了分析會員客戶一年中對各類商品的需求情況,在雪花模型中對客戶維、商品維和時間維進行的三路聚集即可。如圖4所示。

圖3 連鎖超市數據集市雪花模型二路聚集

圖4 連鎖超市數據集市雪花模型三路聚焦

通過各種聚集,不僅滿足了聯機分析處理和數據挖掘對各種數據粒度的要求,更可喜的是,由于聚集產生的是結構簡單的星型模型,使星型模型的各種優勢在這里得到發揮。

3.雪花模型在聯機分析處理(OLAP)中的應用

聯機分析處理(OLAP)是基于數據倉庫的一種多維數據分析技術,是數據倉庫的重要應用。OLAP從數據倉庫中的某個特定主題的集成數據出發,使用多維分析方法,對客戶端的請求,對數據進行切片、切塊、聚合、鉆取、旋轉等操作,并通過直觀的方式從多個角度、多個側面、多個層次及多種數據綜合程度對多維數據進行分析、比較,并把結果用表格或圖形方式顯示給用戶,使用戶了解數據背后蘊含的規律,以達到獲取相關決策信息的目的。

雪花模型及以雪花模型為依托生成的各層次的聚集事實表,為OLAP提供了良好的工作條件。例如,在對數據進行上鉆或下鉆時,只需要向OLAP工具提供相應的不同粒度的聚集事實表即可。

為了改善數據匯總查詢的性能,可以建立一個匯總表,將常用的全部聚集事實表的表名、粒度、相應的維度屬性存放在匯總表中,并通過數據倉庫元數據進行管理。這樣,OLAP就能根據匯總表的指示,選用不同粒度的聚集事實表進行切片、切塊、聚合、鉆取、旋轉等操作,提高了分析速度,彌補了雪花模型在查詢速度方面的不足。

4.雪花模型在多對多關系處理中的應用

在實際的問題中,數據倉庫的數據會出現“多對多”的關系。多對多關聯不可能在星型模式中實現。但可通過雪花模型將“多對多”的關系轉化成多個“一對多”關系來處理。

總之,雪花模型提高了數據倉庫應用的靈活性。使系統進一步專業化和實用化。

五、結束語

星型模型和雪花模型是基于關系數據庫的數據倉庫的兩種典型的數據模型。星型模型是雪花模型的原型,雪花模型是星型模型的衍生。各有所長,各有特色。在實際應用中,要對具體問題作出具體分析,還要針對OLAP和挖掘工具的需要,在兩種模式之間作出權衡和選擇。使數據模型在數據倉庫的構建和應用中發揮出更好的作用。

參考文獻:

[1]W.H.Inmon著王志海等譯:數據倉庫[M].機械工業出版社,2003

[2]Paulraj Ponniah著段云峰等譯:數據倉庫基礎[M].電子工業出版社,2004

[3]Jiawei Han Micheline Kamber著,范明,等譯.數據挖掘概念與技術[M].機械工業出版社,2004

[4]平靜林平瑞:元數據管理及其在數據倉庫中的應用[J].平原大學學報,2006(8):130~132

[5]彭曉東:基于數據倉庫的綜合決策支持系統的設計研究[j].電腦開發與應用,2003(6):11~20

主站蜘蛛池模板: 国产永久无码观看在线| 高清不卡毛片| 国产成人AV综合久久| 国产91丝袜| 色综合久久久久8天国| 这里只有精品在线| 国产欧美视频在线观看| 亚洲视频免费在线看| A级毛片无码久久精品免费| 色屁屁一区二区三区视频国产| www.狠狠| 暴力调教一区二区三区| 国产精品 欧美激情 在线播放| 日韩国产黄色网站| A级全黄试看30分钟小视频| 久久精品无码一区二区日韩免费| 91福利免费视频| 欧美色视频日本| 婷婷六月综合| 国产女人在线| 99视频有精品视频免费观看| 亚洲一区第一页| 国产欧美日韩专区发布| 久久免费视频6| 欧美色伊人| 精品久久久久久久久久久| 2021国产v亚洲v天堂无码| 国产正在播放| 97在线公开视频| 中文字幕久久波多野结衣| a免费毛片在线播放| 91欧美亚洲国产五月天| 人妻无码一区二区视频| 亚洲国产亚综合在线区| 国产精品亚洲一区二区三区在线观看| 国产精品无码翘臀在线看纯欲| 欧美亚洲第一页| 999国内精品视频免费| 亚洲 日韩 激情 无码 中出| 亚洲伦理一区二区| 久久国产精品夜色| 亚洲AⅤ无码日韩AV无码网站| 高清免费毛片| 国产69囗曝护士吞精在线视频| 国产夜色视频| 亚洲精品国产精品乱码不卞 | 欧美a在线| 玩两个丰满老熟女久久网| 久久这里只精品国产99热8| 欧美人人干| 69国产精品视频免费| 亚洲成人播放| 国产成人综合网| 日韩 欧美 国产 精品 综合| 99热国产这里只有精品9九 | 午夜老司机永久免费看片| 国产亚洲精| 狠狠综合久久久久综| 欧美午夜在线视频| 美女国产在线| 九九视频免费在线观看| 99人妻碰碰碰久久久久禁片| 中国一级特黄视频| 91尤物国产尤物福利在线| 日韩毛片在线播放| 日韩天堂视频| 欧美激情视频在线观看一区| 国禁国产you女视频网站| 国产在线观看99| 国产人人射| 欧美日韩久久综合| 99热这里都是国产精品| 亚洲AⅤ综合在线欧美一区| 久久精品视频亚洲| 伊人激情综合| 好紧好深好大乳无码中文字幕| 国产精品大尺度尺度视频| 国产香蕉97碰碰视频VA碰碰看| 成人永久免费A∨一级在线播放| 少妇被粗大的猛烈进出免费视频| 亚洲综合色婷婷| 国产欧美高清|