劉峰 葉紅

摘 要 在數據庫技術發展的基礎上,企業建立了大量的數據倉庫,通過數據倉庫實現數據向決策信息的轉化。隨著計算機應用的不斷推廣,信息網絡應運而生,有著非常廣泛的應用,主要包括同構信息網絡與異構信息網絡兩種實體類型,包含了大量的實體信息與實體關聯信息。從多維視角對信息網絡進行分析具有非常重要的意義,本文針對同構信息網絡提出了簡單嵌套立方體,針對異構信息網絡提出了多層嵌套立方體。
【關鍵詞】信息網絡 簡單嵌套立方體 多層嵌套立方體
隨著計算機技術的發展與數據庫應用的普及,數據主要劃分為操作性與分析性兩種類型。兩種數據處理的特點不同決定了其數據環境不同,由此而產生了數據倉庫,通過聯機分析處理方法為決策提供依據。當前,新型數據的出現對聯機分析處理技術提出了新的要求,需要對其進行創新。信息網絡中的連接分析處理技術面臨的挑戰為需要一種新的多維數據模型來對信息網絡進行描述,當數據模型發生變化之后,數據存儲模式及物化等都會發生變化,需要實現聯機分析處理技術的創新。
1 信息網絡概述
數據庫并不僅僅是指出數據存儲與檢索的倉庫,其中包含了非常多的數據類型及相同或不同數據類型之間所存在的關聯信息等。數據庫中所包含的數據及數據間的關聯形成了信息網絡,從而對更具有意義的信息進行挖掘。
當前,在對信息網絡進行分析的過程中缺乏多維分析工具,對聯機分析處理提出了新的挑戰。信息網絡中所包含的結點代表的是實體,所包含的便代表的是實體之間的關系。如果信息網絡中的節點類型相同,則形成同構信息網絡;如果信息網絡中結點類型不同,則形成異構信息網絡。在日常生活中信息網絡有著廣泛的應用,例如Facebook、DBLP等。
傳統的聯機分析處理技術是以數據立方體為基礎的,但是其中只能夠存在一種實體類型且實體類型之間不存在關聯。這就導致了連接分析處理技術不能夠對信息網絡多維分析問題進行解決。
2 多維分析視角的同構信息網絡分析
2.1 多維網絡
同構信息網絡屬于新型的數據形式,為了對其進行分析需要實現簡單模型的建立,以該模型為基礎進行分析操作。將同構信息網絡進行抽象之后就得到了多維網絡模型。
例如一個小型的社交網絡,將社交網絡中的每一個人都視為一個節點,每一個節點都具有姓名、國籍、職業、年齡、學歷等多維屬性。兩個節點之間的連線代表著兩人的朋友關系,可以實現信息的共享,因此兩節點之間的線中都包含了多條信息,而每條信息中又包含了ID、信息、主題等多維屬性。通過多維網絡實現了對社交網絡的建模,從而對社交網絡中的實體信息進行了展示,從而將實體與實體之間具體的關系進行了表示。
2.2 簡單嵌套立方體中的聯機分析處理操作
在對簡單嵌套立方體進行分析的過程中,選取雙向兩層聯機分析處理查詢方式,主要包括點到邊的查詢與邊到點的查詢兩種類型。為了能夠對這種查詢進行更好的理解,沿用上文社交網絡的例子來進行說明。在多維網絡中可能存在的聯機分析處理類型的查詢包括:第一,不同國家的人如何實現信息的共享及信息在不同類別如何發布;第二,對特點信息進行分享的人在職業方面的結構分布。這兩個查詢都涉及到多維網絡的聚集操作,首先從對應的圖立方體中找到對應的度量網絡,之后從對應的數據立方體中找到答案對應的度量。
首先,點到邊的查詢。首先對結點進行分析,之后再對邊進行分析,也就是所謂的先對圖立方體進行多維分析,之后再對動態生成的數據立方體進行多維分析。在對上面的第一個類型進行查詢的過程中,首先依據國籍維度對所有的節點進行分組,將在國籍方面具有相同值的節點劃分到同一組中,同時將這些節點對應的邊進行合并,從而得到不同國籍之間所分享的信息,之后再對這些分享信息按照類別對其進行劃分。
其次,邊到點的查詢。首先對邊進行聯機分析查詢,之后再對節點進行分析,也就是說先對內層數據立方體進行分析,之后再對動態生成的圖立方體進行分析。在對上文第二類型進行查詢的過程中,首先應該對所有的共享信息的類別分布進行計算,之后在對特定的類型進行選定,從而對該類別信息進行分享的人進行選擇,之后在對這些選擇的人的職業拓撲情況進行計算。通過對共享信息類別的分布進行計算得知人們對政治信息關注較多,在選定了政治類別的信息之后,對共享這些政治信息的人們的職業拓撲分布進行計算,從而得知教師、醫師之間進行政治信息共享的較多。
3 多維分析視角的異構信息網絡分析
3.1 多維異構網絡
圖1代表一個小型的多維異構網絡,其中結點代表兩種實體,方形代表的是作者,三角形代表的是論文,兩者之間的連線代表論文是該作者所發表,若兩個三角形指向一個方形,則證明兩篇論文為同一位作家所發表,如果兩個方形指向一個三角形,則證明兩位作家共同發表了一篇論文。圖1中的多維異構網絡對文獻網絡進行了形象的刻畫,一方面對作者的合作關系與論文的出處關系進行了表達,另一方面對作者與論文兩種之間類型之間的關系進行了表達。在多維網絡中包含了兩種不同類型的實體,因此將其稱之為兩類型多維異構網絡。
3.2 兩層嵌套立方體
通過兩類型多維異構網絡可以實現兩層嵌套立方體的獲得,由圖1所示的兩類型多維異構網絡可知兩層嵌套立方體主要包括兩種情況:第一,重視對V1類型實體與實體之間的關聯進行重點研究,則V1類型實體的屬性構成了未曾圖立方體的維度,通過對其屬性子集聚集進行計算得到圖立方體,將圖立方體的度量作為度量網絡,將V1實體進行分組,不同小組之間的V2類型實體的屬性構成了內層數據立方體的維,通過對其屬性子集聚集進行計算得到數據立方體。數據立方體存在與圖立方體的度量中,兩者之前形成嵌套關系。第二,重視對V2類型實體與實體之間的關聯進行重點研究,將V2實體集合構成外層他立方體,V1類型實體結合構成內層數據立方體,兩者自檢相互嵌套。
綜上所述,兩層嵌套立方體指的是外層圖立方體中包含內層數據立方體,同一種類型的實體既可以構成內層圖立方體,也可以構成外層的數據立方體。因此,同一個兩種類型多維異構網絡依據分析角度可以分為兩個兩層嵌套立方體。在兩層嵌套立方體中,兩類對象存在既獨立又關聯的關系。
3.3 多層嵌套立方體
兩種類型的多維網絡能夠形成對應的兩層嵌套立方體。在異構信息網絡中,實體類型包括多種類型,兩層嵌套立方體可以擴展成為多層嵌套立方體。例如三種類型的異構網絡能夠形成六個不同的三層嵌套立方體。因此,多維網絡中的N個實體類型與實體類型之間存在的內在聯系能夠在異構網絡中形成N!個N層嵌套立方體,不同的實體類型能夠在任意一層中出現,但是只能夠出現在一層中。
3.4 多層嵌套立方體上的聯機分析處理操作
在對傳統的數據立方體進行操作的過程中,主要的操作類型包括切片、上卷、切塊等。這些操作方式在多層嵌套立方體中同樣適應。此外,還可以通過復合查詢的方式對多層嵌套立方體中的多種類型分析對象進行查詢。在多層嵌套立方體的聯機分析處理操作過程中,N層嵌套立方體上的復合查詢需要N-1次轉換分析對象操作,從而形成N-1個部分立方體。
4 總結
在信息網絡多維分析方法的研究方面已經取得了一定的成果,在已有的研究方法中不能夠實現對同構信息網絡的聯系進行深入分析,而且對異構信息網絡的研究也較為缺乏。本文通過立方體相互嵌套的思想對信息網絡的多維視角分析問題進行了解決。針對同構信息網絡提出了簡單嵌套立方體,針對異構信息網絡提出了多層嵌套立方體,對兩者之間的區別與聯系進行了研究,為基于多維分析視角的信息網絡研究奠定了理論基礎。
參考文獻
[1]王杰.信息網絡傳播權與圖書館信息資源共享的利益沖突分析[J].佳木斯大學社會科學學報,2012,01(36):174-175.
[2]聶章艷,李川,唐常杰,徐洪宇,張永輝,楊寧.面向OLGP的多維信息網絡數據倉庫模型設計[J].計算機科學與探索,2014,01(32):51-60.
[3]甘亮,李潤恒,賈焰,劉健.HS-Stream Cube:網絡安全事件流實時多維分析系統[J].計算機工程與科學,2013,03(24):72-79.
[4]尹為,張成虎,甘凱.基于數據流多維分析的可疑金融交易動態識別[J].北京理工大學學報(社會科學版),2013,05(15):52-59.
作者單位
陜西省科技資源統籌中心 陜西省西安市 710075