王江海,武林仙,吳揚揚
(華僑大學計算機科學與技術學院,福建廈門361021)
基于刻面的數據空間數據源管理子系統
王江海,武林仙,吳揚揚
(華僑大學計算機科學與技術學院,福建廈門361021)
提出一種基于刻面描述的數據空間數據源描述模型(FADSM),實現數據空間對數據源“先有數據,后在模式”的即插即用的管理模式.在數據空間原型系統架構下,以FADSM模型為基礎構建一個數據空間數據源管理子系統.原型系統實現對數據空間中異構異質數據源內部及外部屬性的提取,以Pay-As-You-Go的管理模式實現統一管理,并提供對數據源添加、刪除和瀏覽等基本管理功能.
數據空間;刻面;數據源管理;異構異質數據
信息技術與計算機網絡的飛速發展,在實現數據共享的同時,也使用戶不得不面對大量的不斷快速增長的數據.數據的海量、共享性及其多樣性使得傳統的關系數據庫管理模式面臨著嚴峻的挑戰.數據空間(dataspace)就是針對異構異質數據數據管理難的問題提出來的.與關系型數據庫區別的是,將數據加入到數據空間之前,無需像關系數據庫事先為其定義關系模式,而直接將數據源加入數據空間,并以Pay-As-You-Go模式實現數據的管理[1-3],使其更能適應未來各種異構異質數據的管理需求.iDM(imemex data model)[4]是通過資源視力來描述數據源,但基于iQL查詢可能會很復雜;UDM(unified data model)[5]主要是關注桌面搜索的無法提供關系數據查詢;Triple Model[6]是基于RDF的,提供了強大的查詢能力,但不支持屬性查詢和不確定查詢,普通用戶使用比較困難;Probabilitstic Sematic Model[7]是基于概率的,能夠處理不確定數據源,但其擴展性受到使用的集成方法的限制.基于任務的數據空間模型[8]只是從用戶任務方面考慮的,弱化了數據源內容;PAD和CKP模型[9]使用了本體的概念,但其本體本身的建構需要領域專家的參與;RSM(refined standard model)[10]將數據空間看作是若干個資源的空間的集合,各個資源空間中有相同屬性的數據聚類,但卻忽略了不同類數據間的內容間關聯性;LGDM(layered graph data model)[11]也是基于圖的模型,以對象的概念作為數據最小單元.若干屬性對數據源描述可以是對數據源的某方面特征的描述,而以上介紹的數據空間模型在描述數據源時多是將數據源看作簡單的屬性集合,忽略了屬性間的關系.為描述數據空間中的數據,本文提出一種基于刻面描述的數據空間模型(FADSM模型),并在此模型上構建了一個數據源管理子系統.
在軟件構件庫的分類模式中,刻面分類將對構件描述的關鍵詞置于不同的語境,從而可以從多個視角來觀察構件,以此來精確分類構件.通常對數據源的描述是基于屬性集合的,即通過屬性名和屬性值元組的集合來完成.這種表達方式只是將數據源看做簡單的屬性集合,并沒有進一步挖掘出屬性間的關系.文中對這些屬性進行了進一步的抽象,提取屬性之間的關系,將各個屬性劃入不同的刻面.
在基于刻面的概念下,通過數據源、刻面和屬性來描述數據源.數據源并非單獨存在的,它同時與其它數據存在著各種各樣的關聯,如引用、具有相同的刻面等.因此,在對數據源描述時不能僅描述數據源內部屬性的關系,還需要引入一個關系集來描述各種不同數據源之間的關系.即通過刻面、屬性和關系來描述數據空間中的數據源.
定義如圖1所示的數據空間的FADSM模型為Dsource=(ID,FS,A-VS).其中:ID是數據源的標識符,表示數據的類別和存儲位置,類似于URL的表示方式;FS是數據源的刻面集合;A-VS是刻面所包含的內容集合,包括了描述這個數據源的所有屬性及關系等.

圖1 FADSM模型示意圖Fig.1 Diagram of FADSM model
在FADSM模型中,屬性用來描述數據源對象的特性,如郵件用來描述文件的大小、位置、時間等,數據庫的表、列等,網頁的URL,Title等.對于用戶對數據源的自定義屬性,也用來作為對數據源的描述加以使用.刻面是指用戶觀察數據源的視角,如一張新聞網頁,從文件的角度看,它有網頁大小、網頁存放位置、網頁創建時間等屬性;從內容的角度看,有新聞標題、新聞記者、發生時間等屬性;而從網頁的角度看,則有URL地址,Title,相關頁等屬性.本模型可以為用戶提供從不同的角度瀏覽和查詢數據.
在研制的數據源管理子系統中,對于常見的數據源,設置了兩個初始的刻面集及其屬性集,用戶可根據需要增加或修改.初始的刻面包括Basic基礎刻面和Content內容刻面.表1是一些常見數據源的初始刻面集和屬性集.

表1 常見數據源初始刻面及屬性集Tab.1 Initial facets and attributes for common data sources

圖2 數據空間數據源管理子系統架構圖Fig.2 Architecture of data management subsystem for dataspace
數據源管理子系統對加入數據空間的數據源自動抽取其各個刻面的屬性,并建立其多刻面地描述模式.用戶不需要定義數據模式,就能對異構異質數據源的管理,實現數據源的瀏覽、查詢和檢索.
基于上述FADSM模型,構建一個數據空間數據源管理子系統,如圖2所示.系統通過對數據空間中異構、異質數據源內部及外部屬性的自動提取,以Pay-As-You-Go的管理模式實現數據源的統一管理,并提供了對數據源添加、刪除和瀏覽等基本管理功能,為將來數據空間索引及空間演化提供了基礎.該系統主要由5個模塊組成,包括顯示模塊、數據源管理模塊、屬性存儲模塊、數據源自動抽取模塊和數據源包裝模塊.
1)數據源包裝模塊.主要定義了文件、數據庫、郵件和xml等數據源的刻面描述信息的訪問方法.模塊向上提供對異構數據源的元數據信息及內容的訪問接口,實現對數據源的統一訪問,在后續的新數據源中只需要實現元數據訪問接口就可以保證對新數據源的訪問.
2)數據源管理模塊.數據源管理模塊提供數據空間中數據源管理的主要功能,完成包括添加數據源、刪除數據源和瀏覽數據源3個主要業務邏輯.模塊實現了數據源加入到數據空間、利用屬性提取模塊抽取數據源屬性,以及向顯示模塊提供數據源刻面描述信息的查詢及內部數據的瀏覽方法.
3)自動提取模塊.包括對數據源外部信息和內容信息的刻面描述的自動抽取及數據源內容的索引.模塊根據提供的數據源訪問信息判斷數據源類型,調用數據源包裝模塊提供的數據源訪問API,獲取數據源的刻面描述信息并存儲.外部屬性的提取主要是針對數據源各種外部描述元數據的提取;對于內部內容信息的抽取,通過基于加權重規則統計、貝葉斯分類模型和支持向量機模型結合的機器學習方法,對標題、作者、關鍵字、主題和語言等數據信息進行提取,同時通過Lucene工具對數據源內容進行索引,方便查詢.
4)存儲模塊.使用刻面描述模型對數據源以數據源、刻面、屬性3個層次來描述并存儲,并提供對這些信息的查詢方法.這種存儲方式與數據源本身的異構性無關,具有良好的擴展性能,對數據源信息的變更不影響存儲的本身結構.同時,屬性的存儲的訪問接口提供了對插入數據源屬性到屬性存儲的訪問方法,保證了屬性自動提取模塊的相對存儲的獨立性.
5)顯示模塊.提供用戶將數據空間外部的數據源加入到管理子系統中、數據空間內部數據源移除據空間管理等操作的用戶界面,并提供對數據源刻面描述信息的瀏覽(數據源的刻面名、刻面集合等)及數據源內容查看的界面.
數據空間數據源管理子系統的系統界面共分為4部分.最上層是系統的菜單欄和工具欄,提供數據空間原型系統的基本功能的入口,包括數據源添加和刪除、數據源索引、數據空間配置等功能入口;左邊樹型結構區域是數據空間中數據源樹型瀏覽區,提供數據空間中所有數據源的瀏覽入口;右邊窗口上部是數據空間的查詢入口,提供數據源空間的關鍵字查詢;右下部是內容顯示區,提供數據源內容、關鍵字查詢、基于用戶活動的查詢結果等內容的顯示.
在實驗中,將236個普通文件(74.5 Mb)、262封郵件(20.4 Mb)、8個數據庫(435.4 Mb)和78個xml數據文件(52.2 Mb)共4類異構異質數據源加入到數據空間中進行管理.用戶通過菜單欄中的數據源菜單下的添加數據源菜單,進入數據源添加窗口;窗口提供了多種異構數據源的添加功能,用戶只需要選擇相應的數據源,并提供訪問時所需要的連接信息;點擊確定后,系統將在后臺自動抽取數據源刻面信息,并對數據源內容進行索引.數據源加入數據空間后,用戶瀏覽系統抽取的數據源的刻面描述信息,如圖3所示.對于加入到數據空間數據源管理子系統的數據源,用戶可以通過上面的查詢框中,輸入刻面信息的關鍵字來查詢相關的數據源.

圖3 數據空間數據源刻面瀏覽Fig.3 Data resource facet browse for dataspace
提出了一種基于刻面描述的數據空間數據源描述模型(FADSM),并在此基礎上利用Java語言的優勢構建了一個數據源管理子系統,實現了對數據空間中異構異質數據的統一管理.雖然系統未實現對空間中數據源變化的監控及空間的進化,但統一的管理方法及數據源的存儲方法為將來數據空間索引及空間演化提供了基礎.
實驗結果表明:FADSM模型滿足了數據空間對異構異質數據源的統一管理的要求.數據源管理子系統通過預先對數據源的基礎刻面的抽取提供數據源的基本管理功能.下一步的工作,將是完成對數據源的監控和挖掘的數據源間關系,以實現數據空間的演化,為用戶提供更強大的服務.
[1] FRANKLIN M,HALEVY A,MAIER D.From databases to dataspaces:A new abstraction for information management[J].ACM SIGMOD Record,2005,34(4):27-33.
[2] HALEVY A,FRANKLIN M,MAIER D.Principles of dataspace systems[C]∥25th International Conference on Management of Data Principles of Database Systems.Chicago:ACM SIGMOD,2006:1-9.
[3] HALEVY A,FRANKLIN M,MAIER D.Dataspaces:A new abstraction for information management[C]∥25th International Conference on Management of Data Principles of Database Systems.Chicago:ACM SIGMOD,2006:1-2.
[4] DITTRICH J P,SALLES M A V.iDM:A unified and versatile data model for personal dataspace management[C]∥Proceedings of the 32nd International Conference on Very Large Data Bases.Seoul:[s.n.],2006:367-378.
[5] PRADHAN S.Towards a novel desktop search technique[C]∥Proceedings of 18th International Conference on Database and Expert Systems Applications.Regensburg:[s.n.],2007:192-201.
[6] ZHONG Ming,LIU Meng-chi,CHEN Qian.Modeling heterogeneous data in dataspace[C]∥IEEE International Conference on Information Reuse and Integration.Las Vegas:[s.n.],2008:404-409.
[7] SARMA A D,DONG X L,HALEVY A Y.Data modeling in dataspace support platforms[J].Conceptual Modeling:Foundations and Applications,2009,5600:122-138.
[8] 寇玉波,李玉坤,孟小峰,等.個人數據空間管理中的任務挖掘策略[J].計算機研究與發展,2009,46(增刊2):446-452.
[9] 董彥磊,申德榮,寇月,等.數據空間中數據組織模型以及關聯關系發現模型的研究[J].計算機研究與發展,2009,46(增刊2):191-199.
[10] JIANG Xiao-rui,SUN Xiao-ping,ZHUGE Hai.A Resource space model for dataspace[C]∥Sixth International Conference on Semantics,Knowledge and Grids.Washington D C:IEEE Computer Society,2010:33-41.
[11] YANG Dan,SHEN De-rong,NIE Tie-zheng,et al.Layered graph data model for data management of dataspace support platform[J].Web-Age Information Management,2011,6897:353-365.
A Data sources Management Subsystem for Dataspace Based on Facets
WANG Jiang-hai,WU Lin-xian,WU Yang-yang
(College of Computer Science and Technology,Huaqiao University,Xiamen 361021,China)
A facet-based attributes dataspace model(FADSM)is proposed in this article,which implements data-first management model.In the architecture of dataspace prototype,we design a subsystem for data sources management in dataspace based on FADSM.Our system achieves to extract the internal and external attributes of heterogeneous data in dataspace and manage data in Pay-As-You-Go style.It also implements the basic functions to add,delete and browse data sources in dataspace,which provides a basis for data indexing and evolution in dataspace.
dataspace;facets;data source management;heterogeneous data
TP 311.13
A
(責任編輯:陳志賢 英文審校:吳逢鐵)
1000-5013(2012)05-0509-04
2012-03-24
吳揚揚(1957-),女,教授,主要從事數據庫和數據挖掘的研究.E-mail:wuyy@hqu.edu.cn.
福建省科技計劃重大項目(2011H6016,2011H0028)