謝 榕,羅知微,王雨晨,陳 文
(1.武漢大學 國際軟件學院,湖北 武漢 430079; 2.華中科技大學 自動化學院,湖北 武漢 430074;3.上海航天控制技術研究所 上海市空間智能控制技術重點實驗室,上海 201109)
遙感衛星特定領域大規模知識圖譜構建關鍵技術
謝 榕1,羅知微2,王雨晨1,陳 文3
(1.武漢大學 國際軟件學院,湖北 武漢 430079; 2.華中科技大學 自動化學院,湖北 武漢 430074;3.上海航天控制技術研究所 上海市空間智能控制技術重點實驗室,上海 201109)
針對遙感衛星數據應用中的信息整合、系統集成等問題,提出建立遙感衛星特定領域大規模知識圖譜的總體框架及其關鍵技術。在該技術框架中,構建基于國際衛星標準的標準化衛星數據集成元數據模型,并通過語義計算、語義映射與知識進化等手段進一步建立完備一致的遙感知識空間語義模型,在此基礎上形成遙感衛星特定領域知識圖譜及其應用模式。研究成果為海量衛星數據應用服務的語義集成與互操作、共享平臺建設提供新思路、新方法與新技術。
對地觀測數據;元數據模型;語義模型;知識圖譜;語義;FCA-概念格;機器學習;應用模式
在經濟全球化和信息網絡化發展背景下,快速獲取、高效處理和有效應用衛星對地觀測大數據成為世界各國的共同需求[1]。遍布全球的多個衛星數據觀測中心積聚了巨大的海量數據,它們高度異構、分散自治和動態更新。另一方面,衛星應用信息系統的建設涉及到眾多領域、眾多部門,目前這些系統的子系統、組件和服務被獨立地開發和部署,協調困難,難以實現衛星遙感信息資源在各領域和各部門之間的交流與共享[2]。因此,面臨衛星對地面遙感所形成的地球空間海量信息流,如何提供一個高效的數據管理與信息整合的途徑、方法或技術,在保留衛星應用各領域、各部門原有子系統、組件和服務的基礎上,利用數據集成和語義技術,對衛星遙感數據、地面觀測數據與仿真模型等多源、異構數據以及不同平臺、不同歸檔系統等數據進行集成,支持這些大規模遙感數據的邏輯關聯表達、信息語義集成、協同綜合管理,最終實現海量衛星數據應用服務的語義集成與互操作、共享平臺建設,成為迫切需要和亟待解決的難題[3-4]。
研究學者提出了多種異構數據集成方法[5-10],如聯邦數據庫、LINQ、中間件、數據倉庫、Web Service和本體等。其中,基于本體的異構數據集成方法是近幾年用得比較多的一種方法。該方法利用本體的規范化來消除各個數據源之間的異構性,并進行本體的知識推理來提高數據查詢的準確率。基于本體的異構數據集成方法有3種思路:單一全局本體集成、多局部本體集成和混合本體集成。單一本體集成對多個異構數據源建立一個全局本體進行統一描述,并基于全局本體實現對多數據源的訪問。這種方法較適合于來自同一個領域的多個數據源,通過多個數據源共同理解的概念來構建本體;多局部本體集成對每個異構數據源都建立一個局部本體,而不用建立全局本體,該方法適用于動態性較強的多個數據源;混合本體集成對每個數據源建立一個局部本體,然后再建立一個全局本體,這種方法的擴展性、自治性都較好。歸結起來,基于本體的方法數據查準率較高,但本體的構建與映射過程相對比較復雜[10]。從現階段遙感數據集成與共享的技術水平來看,一些技術手段仍停留在傳統的領域本體建模方法上。一方面缺乏完備的語義融合機制以及缺乏對語義數據的自動更新,另一方面本體構建、本體更新的代價也很大。當前,語義技術和知識圖譜[11-13]引起工業界和學術界的高度關注和研究熱潮,正成為實現大規模異構信息語義集成與互操作的新興手段和途徑。然而關于領域知識圖譜的概念尚沒有形成,其研究還是一片空白,僅限于圖書館知識圖譜[14]、地學知識圖譜[15]和微博知識圖譜[16]的研究探討,基于語義技術和知識圖譜的信息集成技術與方法尚未在遙感數據應用領域中獲得廣泛的研究與開展。
本文提出為衛星應用部門建立遙感衛星特定領域大規模知識圖譜的技術架構。建立一種基于FCA-概念格的知識語義模型,將概念格與傳統本體進行互補融合,通過異構數據整合、概念格表達和語義映射等手段實現概念構建與語義映射的自動化過程。通過主動學習結合半監督學習的知識進化方法與算法,解決現有關聯規則、機器學習等方法在知識更新時需要人工干預、效率低的問題,實現及時發現新知識并動態更新知識庫。采用混合描述邏輯的知識庫融合方法,并通過全局概念格構建、基于規則的約束關系生成、基于公理的知識一致性分析,解決遙感領域數據應用服務的語義集成與互操作問題。

圖1 遙感衛星特定領域大規模知識圖譜構建總體技術框架
充分利用國際標準組織ISO TC/211[17-20]提出的一系列衛星數據國際標準計劃,并對這些標準進行集成與擴展,構建標準化衛星數據集成通用元數據模型[21],對衛星圖像、地面觀測數據與模擬模型結果等異構數據以及各個部門、多個平臺、不同數據歸檔系統之間的數據進行有效集成,通過建立共同的標準描述全球分布衛星遙感數據,確保衛星數據與服務的兼容性和互用性,使得所有的衛星遙感數據都可以實現規范化共享與應用。面向衛星對地觀測數據集成及其應用系統的通用元數據模型如圖2所示,包括核心元數據(圖2(a))、擴展元數據(圖2(b))和特殊元數據(圖2(c))。

圖2 遙感衛星元數據UML模型
語義表達模型是對地觀測數據綜合集成的基礎。語義表達建模必須面對以下三大困難:
① 數據存儲層數據存儲形式按照結構化程度主要有3種,即結構化、半結構化和非結構化,存在典型的異構性,因此需要解決多源異構數據的整合。
② 在當前語義表達研究中,本體占有非常重要地位[22]。但各種領域本體的構建方法主要還是依賴于專家智能和手工完成,所建立的領域本體易受領域專家主觀因素影響且構建效率低下,數據集成需要更客觀高效的能夠由計算機輔助完成的半自動化乃至自動化的本體構建方法。
③ 概念之間的語義映射是建立語義關聯的重要依據。但目前映射存在相似度計算方法不完善、計算量過高、概念相似度計算過于片面等問題,不能很好地反映語義相似度的相關因素。
本文將概念格與本體互補融合,采用FCA-概念格相關理論與技術[23]來解決這些問題。通過概念格及其語義映射進行統一知識語義表達與建模。利用Protégé工具遙感衛星,形成遙感衛星語義模型如圖3所示,包括概念格、屬性和關聯等組成部分。

圖3 遙感衛星Protégé語義模型
在該模型中,從語義角度解決異構,采用BP神經網絡算法解決語義集成中的屬性匹配問題。在屬性匹配的基礎上,采用基于屬性信息熵和互信息確定屬性權重比的方法來分配各個屬性的權值,計算2個實體在各個屬性值上的相似度并結合權重得到這2個實體的相似度,從而計算出實體的匹配結果。
(5) 血小板GPⅡb/Ⅲa類受體拮抗劑國內目前使用的GPI主要為替羅非班。應考慮在PCI過程中使用GPI,尤其是高危(cTn升高、合并糖尿病等)或血栓并發癥患者(Ⅱa,C)。不建議早期常規使用GPI(Ⅲ,A)。
在現有本體映射方法的基礎上設計一個語義映射層的自動構建算法[24],算法的主體部分為概念語義相似度的計算和基于貝葉斯網絡的推理映射。其中,概念語義相似度是算法的基礎與核心,其準確度直接影響映射算法最終的效果。① 利用概念節點在本體模型中的結構信息,定位概念詞在WordNet中的詞義。然后計算2個擁有具體詞義的概念的語義距離,從而得到概念的語義相似度。② 利用貝葉斯網絡基于已有映射結果發現新的映射。
目前本體技術用的比較普遍,可以解決不同本體間的知識共享和重用問題。但本體技術的運用大多由人工手動來完成,不僅過程繁雜,而且容易出錯,極大影響本體的自動化程度和準確性。機器學習通過計算機模擬實現人類學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能,因此可成為對地觀測數據集成的語義映射與知識進化的有效手段。
機器學習有監督學習、非監督學習以及半監督學習3類方法。非監督學習直接對輸入樣本通過聚類辦法進行建模,學習效果不高。有監督機器學習方法受限于標注語料的規模,在小規模標注樣本中難以獲取較高性能。因此,采用半監督學習方法,并結合訓練特點,運用基于主動學習的樣本優化策略,即整合主動學習與半監督學習的辦法,可以在小規模標注樣本環境中取得良好學習效果。
根據Web數據中領域若干種子術語,計算詞語與種子詞語的相對共現率,初步獲得候選術語集合,篩選一定閾值范圍內的候選術語集合,計算值并排序,獲取結果中一定閾值范圍內的候選術語集合作為最終結果。領域復合術語提取時,采用基于位置上的方法和基于詞性上的方法,統計和領域基本術語常常一前一后組合出現的詞語的頻率,并過濾其中詞性不符合要求的結果,從而得到領域復合術語[25-26]。
基于以上半監督學習策略和主動學習策略,對半監督學習和主動學習進行整合。將半監督學習的訓練過程分成2個部分:半監督學習訓練和半監督學習迭代訓練。
① 從待標注樣本集中選取任意樣本進行標注;
② 訓練半監督學習達到的分類器并使用該分類待分類樣本集;
③ 使用主動學習策略從待分類樣本集中抽取所有確定性樣本,與前面取得標注樣本組成訓練集訓練;
④ 訓練得到的半監督學習對剩下的待標注集與全部待分類集重新分類,然后調用主動學習策略構建新的訓練集,反復迭代直至指定步結束為止。
在遙感領域知識圖譜建立中,除了定義語義層外,還需要定義應用模式層,需要解決以下兩大問題:
① 實際應用中,遙感各個領域內所構建的知識庫是相互獨立的,因此需要對不同領域的知識庫進行融合,本文采用混合描述邏輯的知識庫融合方法來建立全局概念格。
② 語義表達模型包括了概念、概念層次、屬性、屬性值類型、關系、關系定義域概念集以及關系值域概念集,但還需要添加規則或公理來表示模式層更復雜的約束關系。
全局概念格對應知識庫的邏輯結構,從局部概念格轉化為全局概念格,需要建立二者之間相關的映射信息,通過全局概念格到局部概念格的映射完成領域知識庫的語義集建立。具體地,提取局部概念格中的概念,采用語義映射方法進行相似概念匹配,在全局概念表中補充局部存在而全局不存在的概念,并根據匹配映射進行屬性相似匹配以及全局概念格概念表的屬性修正,建立局部概念格到全局概念格的映射集。
建立全局概念格和混合知識庫后,從類內公理和類間公理2個方面建立一致性公理庫。
① 類內公理將概念格類的值域限定在一個合理范圍內,同時對類內屬性、關系進行限定。
② 類間公理定義類屬性之間的公理表示一個類的屬性對另一個類的屬性的約束,同時對類與類之間的內在聯系進行約束。基于建立的公理庫,可對知識進行一致性檢查,包括知識完備性、值錯誤和知識矛盾等方面。還可以從已知概念出發,由公理庫推出未知概念的知識;從概念的已知屬性出發,推出概念的未知屬性知識。
在構建遙感衛星元數據模型的基礎上,進一步形成遙感衛星語義模型,并最終建立遙感知識圖譜。遙感衛星知識圖譜雛形如圖4所示。

圖4 遙感衛星知識圖譜雛形
本文提出建立遙感衛星特定領域大規模知識圖譜的技術框架。初步研究工作包括以下3個方面:
① 將概念格與傳統本體方法互補融合,建立統一的知識語義表達模型,解決多源異構數據整合問題,并能克服領域本體易受領域專家主觀因素影響且構建效率低下的不足,解決當前語義映射方法不完善、計算量過高以及概念相似度計算過于片面的問題,實現概念構建與語義映射的自動化過程;
② 針對現有關聯規則、監督學習等數據挖掘和機器學習方法在知識更新時需要人工干預、效率低等局限性,將主動學習與半監督學習進行有效結合,在不需要人工干預的條件下對領域知識自動學習,實現及時發現新知識并對領域知識庫進行自動更新;
③ 針對遙感領域內獨立知識庫進行異構信息融合的若干難點問題的解決方案,并通過全局概念格構建、基于規則的約束關系生成、基于公理的知識一致性分析,構建遙感知識圖譜應用模式,徹底解決對地觀測數據綜合集成應用的語義集成與互操作問題。研究成果為海量衛星數據應用服務的語義集成與互操作、共享平臺建設提供新思路、新方法與新技術。
[1] CRAGLIA M,BIE K,PESARESI M,et al.Digital Earth 2020:Towards the Vision for the Next Decade[J].International Journal Digital Earth,2012(5):4-21.
[2] 謝 榕,劉亞文,李翔翔.大數據環境下衛星對地觀測數據集成系統的關鍵技術[J].地球科學進展,2015,30(8):855-862.
[3] 李德仁.地球空間信息學的機遇[J].武漢大學學報(信息科學版),2004,29(9):753-756.
[4] 李德仁,沈 欣.論智能化對地觀測系統[J].測繪科學,2005,30(4):9-11.
[5] 鄒衛國,郭建勝,劉建軍,等.基于聯邦數據庫的數據集成體系研究[J].中國管理信息化,2009,12(13):86-88.
[6] WANG Y,ZHANG X.The Research of Multi-source Heterogeneous Data Integration Based on LINQ[C]∥ International Conference on Computer Science and Electronics Engineering,IEEE,2012:147-150.
[7] 張德文,徐孟春,馬 慧.基于多中間件的數據集成方案[J].計算機工程與設計,2007,28(21):5 081-5 107.
[8] 張蒲生,蘇運霖.基于政務數據倉庫的數據集成及關鍵技術[J].計算機工程,2003,29(9):79-183.
[9] HAN J,TONG J,LI X.An Adaptive Heterogeneous Database Integration Framework based on Web Service Composition Techniques[C]∥IEEE International Conference on Granular Computing,IEEE,2008:265-268.
[10] KAVITHA C,SADASIVAM G S,SHENOY S N.Ontology Based Semantic Integration of Heterogeneous Databases[J].European Journal of Scientific Research,2011,64(1):115-122.
[11] NewScientist.Why Google Will Soon Answer Your Questions Directly[EB/OL].2012-05-30,http:∥www.newscientist.com/article/mg21428676.400-why-google-will-soon-answer-your-questions-directly.html#.VP-zK-Gb8th.[12] AMIT S.Introducing the Knowledge Graph:Things,Not Strings[EB/OL].2012-05-24,http:∥googleblog.Blogspot.co.uk /2012/05/introducing-knowledge-graph-things-not.html.
[13] 王昊奮.大規模知識圖譜技術[J].中國計算機學會通訊,2014,10(4):64-68.
[14] 冉從敬,陳 一,李 莎.基于知識圖譜的國外數字資源長期保存可視化研究[J].信息資源管理學報,2014(2):106-113.
[15] 許 珺,裴 韜,姚永慧.地學知識圖譜的定義、內涵和表達方式的探討[J].地球信息科學學報,2010,12(4):496-509.
[16] 杜亞軍,吳 越.微博知識圖譜構建方法研究[J].西華大學學報(自然科學版),2015,34(1):27-35.
[17] ISO/TC 211.ISO 19115.Geographic Information-Metadata[S],2002.
[18] ISO/TC 211.ISO 19139.Geographic Information-Metadata-XML Schema Implementation[S],2004.
[19] ISO/TC 211.ISO 19115.Geographic Information-Metadata-Part 2:Extensions for Imagery and Gridded Data[S],2005.[20] ISO/TC 211.ISO 19130.Geographic Information-Sensor Data Model for Imagery and Gridded Data[S],2005.
[21] XIE R,SHIBASAKI R.Imagery Metadata Development based on ISO/TC 211 Standards[J].Data Science Journal,2007,6(3):28-45.
[22] LIU L,ZHANG P.Modeling Ontology Evolution with SetPi[J].Information Sciences,2014,255(10):155-169.
[24] 任 鴿.語義映射層自動構建算法[D].武漢:武漢大學,2016.
[25] LUO Z,WANG H.Extract Domain Terminologies for Knowledge Graph Construction Using Domain Feature Vectors[C]∥2nd IEEE International Conference on Big Data Analysis (ICBDA 2017),2017:89-93.
[26] 葉澤韜.基于傳統領域術語提取方法的改進[D].武漢:武漢大學,2016.
謝 榕 女,(1968—),武漢大學國際軟件學院教授,博士生導師。主要研究方向:遙感、語義建模。
主持并參與教育部留學回國基金、湖北省自然科學基金、國家863計劃、國家自然科學基金重點、中央高校基本科研業務費專項、蘇州科技局國際合作、西門子公司國際合作、中國航天創新基金、上海航天創新基金、重點實驗室開放基金等項目。曾擔任CEOS WGISS成員以及ISO/TC211第6工作組EC成員、國際會議的PC Member和Session Chair以及Journal of Artificial Societies and Social Simulation、計算機科學、武漢大學學報等學術期刊審稿人。獲軟件著作權6項,發表研究論文50多篇,多篇論文被SCI、EI收錄。
王雨晨 男,(1991—),博士研究生。主要研究方向:遙感、語義建模。
Key Techniques for Establishing Domain Specific Large Scale Knowledge Graph of Remote Sensing Satellite
XIE Rong1,LUO Zhi-wei2,WANG Yu-chen1,CHEN Wen3
(1.InternationalSchoolofSoftware,WuhanUniversity,WuhanHubei430079,China; 2.SchoolofAutomation,HuazhongUniversityofScienceandTechnology,WuhanHubei430074,China; 3.ShanghaiKeyLaboratoryofAerospaceIntelligentControlTechnology,ShanghaiAerospaceControlTechnologyInstitute,Shanghai201109,China)
To solve the issues of information aggregation and system integration etc.in the application fields of remote sensing,the paper proposes an overall framework and its key techniques for establishing large scale domain specific knowledge graph of remote sensing satellite.In this framework,standardized satellite data integration metadata model is constructed based on international satellite standards,then a consistent remote sensing spatial semantic model is built through the means of semantic computing,semantic mapping and knowledge evolution,and the remote sensing satellite specific domain knowledge graph and its application schema are further formed.The results can provide a novel idea,method and technology for semantic integration and interoperability as well as sharing platform construction of massive satellite data services.
earth observation data;metadata model;semantic model;knowledge graph;semantics;FCA-concept lattice;machine learning;application schema
10.3969/j.issn.1003-3106.2017.04.01
謝 榕,羅知微,王雨晨,等.遙感衛星特定領域大規模知識圖譜構建關鍵技術[J].無線電工程,2017,47(4):1-6.
2017-01-03
上海航天科技創新基金資助項目(SAST2016082)。
P236
A
1003-3106(2017)04-0001-06