吳珺,謝樹泉,王春枝(.湖北工業大學計算機學院,湖北武漢430068;.武漢理工大學計算機科學與技術學院,湖北武漢430070)
基于語義的隧聯網數據整合方法
吳珺1,2,謝樹泉2,王春枝1
(1.湖北工業大學計算機學院,湖北武漢430068;2.武漢理工大學計算機科學與技術學院,湖北武漢430070)
通過構建隧聯網實現多個城市隧道監控系統的深層次數據共享與協同應用。隧聯網可提供應急管理、城市規劃建設和隧道長期監控等服務,實現各個城市隧道監控系統間的協同調度與聯動控制;同時豐富物聯網技術的應用,提高隧道聯網智能監控水平。針對隧聯網數據整合進行研究,首先通過構建隧聯網聯邦數據庫實現各個城市隧道數據庫的數據共享;然后給出標準化的隧聯網數據字典;其次通過基于語義的數據整合方法實現隧聯網數據的整合和查詢。實現了隧聯網數據的統一管理和關聯性查詢應用,其中的每個城市隧道監控系統實現數據的共享和信息互聯,增加隧聯網系統數據的利用率和信息的可信程度。
隧聯網;系統異構;語義異構;數據整合;語義字典
隨著物聯網的多樣化發展,針對多個城市交通智能監控系統進行信息互聯與數據整合;并實現數據檢索,成為基于物聯網的數據挖掘及智能系統應用研究的熱點。
本文提出隧聯網TI(tunnels internet)作為一種特殊的物聯網IoT(internet of things),是將當前先進的計算機技術、數據存儲技術、數據分析技術等綜合運用其中,最終達到功能完善及智能化水平高的目的。2012年何清教授[1]在智能系統學報發表文章將物聯網和云計算這2個當前業界的研究熱點結合起來分析討論,具有一定的創新性和前瞻性。該文針對這一研究熱點討論了數據挖掘在物聯網中的重要性;同時指出云計算作為物聯網發展的重要基石,可以為物聯網的數據挖掘提供更加實時、準確可靠、高效的分布式并行服務。物聯網如果不加入智能信息處理和數據挖掘就不能體現智能,那么就只能是一個由海量傳感器構成的簡單信息網絡。因此建立先進的隧聯網是在物聯網的大背景下將城市隧道監控系統朝著整合化、智能化和信息化的方向發展;并實例化物聯網的數據整合與管理。本文將針對隧聯網數據的異構性進行分析研究,并提出基于語義的隧聯網數據整合方法。
隨著社會信息化水平的發展和中國城市化進程的推進,將人們帶入了多感官、物物相連的數據海洋。人們置身于網絡化世界,其中包括虛擬化的互聯網,也包括物物相聯的物聯網。在復雜廣闊的物聯網里,城市交通作為支撐經濟發展的重要基礎,其建設與發展的速度也越來越快。在我國也有多個院校和研究機構,如清華大學、北京交通大學、吉林大學和國家ITS中心等,面對交通數據的監控管理實施開展了許多有意義的研究工作,在交通信息的分類分析、交通信息的模型和結構、實時數據的管理技術等方面都取得了相應的成果,并形成了初步的技術框架、應用實例和實驗平臺[2?6]。然而城市隧道作為“感知中國”的一個關鍵和特殊交通感知點,我國城市隧道智能監控發展較晚,至今沒有統一的城市隧道監控規范和標準,更沒有形成統一的城市隧道智能監控平臺。雖然各大城市已經先后建立了多個城市隧道智能監控系統,但并沒有實現城市多個隧道的聯網監控。
本文通過研究已開發多個城市隧道的監控系統,總結和歸納了城市隧道的相關特性,提出了“隧聯網”作為“物聯網”在城市交通智能監控領域的一個特殊應用。
本文主要針對多個城市隧道智能監控系統中存在的數據孤立化、非標準化、多源異構性、建設與管理分離等問題進行研究。希望通過對隧聯網的數據特性研究提出數據整合的方法,解決這些已存在的問題。從而通過構建隧聯網,實現城市隧道監控系統進行深層次的數據共享與協同應用,為應急管理、城市規劃建設和隧道長期監控提供服務,實現各個城市隧道監控系統間的協同調度與聯動控制,豐富物聯網技術的應用,提高隧道聯網智能監控水平的目標。
隧聯網的數據異構性;從物理角度分析,隧聯網是由多個位于城市不同地理位置的隧道智能監控系統構成,它們修建時間不同,系統結構和功能也有所差異;而從邏輯角度分析,隧聯網中各個隧道所采集的數據由于硬件配置的區別導致不同定義的數據模型,那么數據表示也具有一定差異。隧聯網數據的異構性表現為“語義異構”和“系統異構”2種類型。
語義異構的產生有很多原因,一個主要原因是由于系統的數據庫管理系統的設計者不同,以及隧道硬件設施的升級發展,隧聯網內的各個數據源就會產生語義異構。比如在每個隧道獨立的數據庫信息數據源,經常選擇不同的術語表示同一個概念;或者同一個概念在不同隧道數據庫信息數據源中表達不同的含義;這樣在隧聯網中就會出現語義異構產生的數據冗余和數據錯誤的問題。語義異構可以通過采用本體技術解決,通過給出更準確的定義,更好地統一表示和數據整合,從而解決語義異構的數據整合問題。
系統異構可以用統一的數據字典進行整合處理,包括以下幾個方面[7]:數據模式、數據子模式、數據項的長度、數據的類型、文件間的聯系。同時規定用戶標識符、用戶口令和相關數據索引。
隧聯網數據的整合是解決以上各種數據異構性的主要方法。數據整合是為隧聯網用戶提供全面整合的數據,并消除數據集的不同源、不同特性以及不同定義格式等存在的問題,以便更有效地實現數據共享。從隧聯網實際情況考慮,無論是修建隧道的時間,還是設計隧道的團隊都有一定的跨越性,如何能夠把這些異構的數據整合成標準化、統一的數據是隧聯網數據整合的重點。
數據整合可以提高隧聯網內數據的一致性,促進數據共享。其中數據的一致性是多異構系統間的數據相互交互聯系的基礎,同時也是系統后期分析處理數據的基本需求;因此數據整合是隧聯網系統的關鍵步驟也是網絡化的必要特性。數據整合是實現在不同信息系統開發過程中實現信息交換結構和不同時期開發的數據庫系統的重用性,最終達到多個獨立的城市隧道智能監控系統間的數據標準化、一致性和共享性。
將隧聯網數據庫設計成聯邦數據庫,如圖1所示。隧聯網內獨立的各個隧道智能監控系統的數據庫作為聯邦數據庫的子節點,每個子節點之間是相互獨立的。各個子節點數據庫系統可以是不同類型的數據庫系統,比如分布式數據庫系統,或者集中式數據庫系統;它們可以包含一個元數據庫來記錄各個節點中存儲實際物理數據的數據庫信息,而實際存儲的數據庫可由一個或者多個組成的數據庫系統。所謂聯邦式結構的數據庫[8?10]就是將數據庫系統通過半自治的方式組織起來,提供多個可訪問的接口,并且實現彼此間的數據共享。它主要應用于面向多個數據庫系統的數據整合,同時自治數據庫較少的情況。
隧聯網聯邦數據庫TI?FD(tunnels internet?fed?erated database)具有以下4個最重要的特征如圖1所示。

圖1 隧聯網聯邦數據庫Fig.1 Tunnels internet?federated database
1)對于隧聯網聯邦數據庫中的任意一個子節點數據庫系統可以在進行本地操作的同時參與到隧聯網聯邦數據庫系統的相關活動;
2)隧聯網聯邦數據庫系統具有分布性,隧聯網聯邦數據庫系統中的數據可以以多種方式分布于多個數據庫之間,同時相關的數據庫可以通過通信系統進行相互關聯;
3)隧聯網聯邦數據庫的異質性,即隧聯網聯邦數據庫系統中的數據可以根據系統中不同的數據模型進行存儲、約束、查詢等相關數據操作;
4)在隧聯網聯邦數據庫系統中作為子節點的數據庫系統是獨立的。
4.1 基于語義的數據字典
為了解決隧聯網數據的語義異構問題,設計了基于語義的隧聯網數據字典。它保存了與數據庫系統有關的所有的數據信息,是以一個特別的信息系統存在的。數據字典是描述數據庫中各數據屬性與組成的數據集合;它作為數據庫的一個重要的組成部分,而且是數據庫系統不可缺少的部分,它包括模式和子模式的內容、文件間的聯系、數據項長度、類型、用戶標識符、口令索引等等。根據隧聯網數據庫的實際需求,對數據字典做如下結構設計。隧聯網數據字典由如下這14個字典表組成:
1)數據庫信息表(DD_DATABASE);
2)數據表信息表(DD_TABLES);
3)時間信息表(DD_TIME);
4)數據類型表(DD_TYPE);
5)字段信息表(DD_COLUMNS);
6)登錄信息表(DD_LOGIN);
7)模塊信息表(DD_MODULE);
8)權限信息表(DD_PURVIEW);
9)用戶信息表(DD_USER);
10)菜單信息表(DD_MENU);
11)風格選擇信息(DD_STYLESELECT);
12)存儲結構信息表(DD_PROCEDURE);
13)觸發器信息表(DD_TRIGGER);
14)DBMS信息表(DD_DBMS)。
4.2 語義檢索
隧聯網數據存在的語義異構,會影響人們對隧聯網數據進行高效、準確地數據檢索;因此就需要進行異構消解,這里提出基于語義的隧聯網數據檢索方法TI?FD?S。主要消解過程就需要進行基于語義的數據整合,需要對視圖進行預處理;包括擴展視圖和分割視圖2個預處理步驟。
在語義檢索的前段,首先利用之前構造的基于語義的數據字典進行擴展視圖的工作。即將語義檢索的每個檢索數據信息對應的視圖和直接下義視圖添加到原始檢索中,從而形成新的視圖;將新檢索提交給數據庫進行匹配查詢,同時記錄新檢索中每個檢索信息的數據,以便下一次進行語義檢索時的文檔過濾。擴展視圖就是將一個圖里過程應用到語義視圖上。分割視圖是在獲得擴展語義視圖后,將語義視圖定義進一步轉換成一組類映射規則。主要目的是將語義視圖再一步切分為更小的映射規則,這些小粒度的映射規則對語義查詢中的語句進行替換,方便查詢重新算法的實現。下面給出一個示例討論分析生成映射規則和語義查詢重寫。
定義1 類映射規則即進行一個類映射規則:t1(),…,tn(n):-A(x),R1(x,y1),…,Rm(x,ym)其中A(x)是概念原語,t1(),…,tn(是一組關系謂詞;R1(x,y1),…,Rm(x,ym)是屬性原語。通過一個類映射規則定義了從關系謂詞到一個三元組Triple Group的映射關系,其中三元組是一個視圖體的所有三元組的一個子集。
定義2 可應用的映射規則:設查詢query集合為Q,其中存在一組三元組g和映射規則m。如果存在一個三元組映射φ,把g中所有的非有限三元組映射到設定的映射規則m中的某個三元組,則稱m對于該三元組g是一個可應用的映射規則。對于2個三元組t1、t2;令Vars(t1)和Vars(t2)代表三元組t1、t2中所包含的變量。如果從Vars(t1)到Vars(t2)有一個變量映射φ,使得t2=Vars(t1),那么就稱有一個從t1到t2的三元組映射。
基于語義的隧聯網數據檢索方法TI?FD?S的算法描述如下:Input:Set ofmapping rules M,query q
Output:List Q
1:Require:Set ofmapping rules M,query q
2:Initialize List Q,Replace variables in v with skolem function names
3:Let T be the setof triple groups of q,Add q to Q
4:For all triple group t in T do
5: Get all class mapping rules applicable to t,denoted by AM
6: For all q in Q do
7:Remove q from Q
8:For allm in AM do
9: For all optional triple to in t do
10: Let x be a variable in t
11: If and x is in the head of q and x is not bound by any data value
12: Then
13: x=NULL
14: end if
15: end for
16: Replace t of q with head of m
17: Add q to Q
18: end for
19: end for
20: Output List Q
實驗環境及數據集:所有的實驗是在一臺內存為2GB,主頻為2.4GHz,處理器為英特爾酷睿2的臺式機上完成的。本實驗采用的數據均源自隧聯網,其中數據主要是從2012年6月1日-2013年3月1日這段時間;隧聯網涵蓋范圍是武漢市城區內的6條主要隧道的智能監控系統。實驗使用了以下3種方法:
1)Normal方法,即分別在各個城市隧道監控系統中檢索數據再匯總返回;
2)TI?FD方法,直接通過隧聯網聯邦數據庫進行數據檢索;
3)TI?FD?S方法,運用語義檢索算法對隧聯網聯邦數據庫進行數據檢索。
實驗結果如圖2所示,對于處理相同數據量的數據,3種方法的數據檢索的處理時間。其中最快的是TI?FD?S方法,其次是TI?FD方法,它們的處理時間都優于沒有改進的傳統方法Normal方法。

圖2 實驗時間比較圖Fig.2 Experiment time
為了準確、直觀地比較各組實驗數據的結果,以實驗數據為依據,進行實驗分組比較,對于3種實驗方法的數據檢索精度作為比較指標。如圖3所示,當實驗處理5 000條數據的時候,TI?FD?S方法、和TI?FD方法的檢索精度十分接近,且都優于Normal方法。

圖3 實驗結果圖(數據5 000條)Fig.3 Experim ent result(5 000 data)
如圖4所示,實驗所處理的數據為10 000條,TI?FD?S方法保持了良好的精度,但是TI?FD方法的檢索精度有所下降,但是都優于Normal方法。

圖4 實驗結果圖(數據10 000條)Fig.4 Experiment result(10 000 data)
如圖5所示,實驗所處理的數據為20 000條的時候,TI?FD?S方法保持了良好的精度,但是TI?FD方法的檢索精度有一定程度的下降;由于處理的數據量增大,Normal方法已經無法保證結果的高精度。

圖5 實驗結果圖(數據20 000條)Fig.5 Experiment result(20 000 data)
通過分組比較分析3種方法的實驗結果精度,可知本文提出的TI?FD?S方法在實驗數據增加的情況下,依然可以保持較好的檢索精度,具有一定的穩定性和可靠性。通過以上實驗分析,可知本文提出的隧聯網聯邦數據庫和TI?FD?S方法在實現隧聯網數據的全面網絡化監管和系統化檢索分析有一定優勢;較傳統的城市隧道監控系統非標準化和分散式的數據格局,本方法提高了數據的實際使用價值和數據檢索的精度。
本文針對隧聯網的特性研究了一種新的基于語義的數據整合方法,即利用聯邦數據庫技術及語義數據字典有效解決了隧聯網內存在的數據異構性問題,實現了隧聯網數據的統一管理和有序集合。在此數據整合的基礎上,給出了TI?FD?S方法,實現了隧聯網數據的高效查詢。通過實驗分析表明,本文所提出的方法保證了隧聯網的數據一致性和可靠性的同時,也實現了隧聯網數據的語義檢索。
[1]何清.物聯網與數據挖掘云服務[J].智能系統學報,2012,7(3):1?5.HE Qing.The Internet of things and the datamining cloud service[J].CAAI Transactions on Intelligent Systems, 2012,7(3):1?5.
[2]SASU T,HEIKKIA.The internet of things of program:the finnish perspective[J].IEEE Communications Magazine,2013,51(3):10?11.
[3]韓祥臨,姜長元,葛紅霞,等.基于智能交通系統的耦合映射跟馳模型和交通擁堵控制[J].物理學報,2007,56(8):4383?4392.HAN Xianglin,JIANGChangyuan,GEHongxia,et al.Amod?ified coupled map car followingmodel based on application of intelligent transportation system and controlof traffic congestion[J].Acta Physica Sinica,2007,56(8):4383?4392.
[4]劉小洋,伍民友.車聯網:物聯網在城市交通網絡中的應用[J].計算機應用,2012,32(4):900?904.LIU Xiaoyang,WU Minyou.Vehicular CPS:an app lication of IoT in vehicular networks[J].Journal of Computer Appli?cations,2012,32(4):900?904.
[5]PEKKA J,RENATAG.An applications perspective into the future internet[J].Network and Computer Applications,2013,36(1):249?254.
[6]朱洪波,楊龍祥.物聯網的技術思想與應用策略研究[J].通信學報,2010,31(11):2?9.ZHU Hongbo,YANG Longxiang.Investigation of technical thought and application strategy for the internet of things[J].Journal on Communications,2010,31(11):2?9.
[7]蔡文,楊春燕.評價信息元及其原信息元的獲取方法[J].智能系統學報,2009,4(3):234?238.CAIWen,YANG Chunyan.A method for evaluation of in?formation?elements and acquirement of the original informa?tion element[J].CAAITransactions on Intelligent Systems,2009,4(3):234?238.
[8]CHEN Zhikui,XIA Feng,HUANG Tao,et al.A localiza?tionmethod for the internet of things[J].Journal of Super?computing,2013,63(3):657?674.
[9]LUCAS JLP,LUZN,MORENOM N,et al.A hybrid rec?ommendation approach for a tourism system[J].Expert Sys?temswith Applications,2013,40(9):3532?3550.
[10]詹武平,肖同林,聶沖.基于遺傳算法的目標軌道測量數據融合處理方法[J].電子學報,2010,2A(2):89?94.ZHANWuping,XIAO Tonglin,NIE Chong.The generic al?gorithm for fusing processingof the targetorbitmeasure data[J].Acta Electronica Sinica,2010,2A(2):89?94.

吳珺,女,1984年生,講師,博士,主要研究方向為物聯網技術、智能方法及應用、數據挖掘。

王春枝,女,1963年生,教授,博士。主要研究方向為計算機網絡,智能方法,發表學術論文多篇。
Data integration for tunnel network based on semantic
WU Jun1,2,XIE Shuquan2,WANG Chunzhi1
(1.Schoolof Computer Science,HubeiUniversity of Technology,Wuhan 430068,China;2.Schoolof Computer Science and Technol?ogy,Wuhan University of Technology,Wuhan 430070,China)
This paper gives a brief introduction about the tunnels internet,which is themain background of this re?search work.Next,an analysis of the heterogeneity is provided,which is used to find the solution for doing data in?tegration.In order to achieve the data integration for the tunnels network,it considers how to construct the tunnels internet federal database,which has its own standardized data semantic dictionary.Lastly,it proposes a new seman?tic data integration method for the tunnels network,which could be applied on data integration and query.The re?sult showed that thismethod can achieve data sharing and information network in the tunnels network and enhance the data efficiency.
tunnels network;structural heterogeneity;semantic heterogeneity;data integration;semantic dictionary
TP18
A
1673?4785(2014)06?0704?05
吳珺,謝樹泉,王春枝.基于語義的隧聯網數據整合方法[J].智能系統學報,2014,9(6):704?708.
英文引用格式:WU Jun,XIE Shuquan,WANG Chunzhi.Data integration for tunnelnetwork based on sem antic[J].CAAI Trans?actions on Intelligent Systems,2014,9(6):704?708.
10.3969/j.issn.1673?4785.201309032
http://www.cnki.net/kcms/doi/10.3969/j.issn.1673?4785.201309032.htm l
2013?09?10.
日期:2014?11?13.
基金項目:國家自然科學基金資助項目(61170135);湖北省自然科學基金資助項目(2014CFB590);湖北工業大學博士啟動基金資助項目(BSQD13039)..
吳珺.E?mail:wujun@whut.edu.cn.