曲佳彬 歐石燕
摘 要:關聯數據集的規模不斷擴大,如何使用和消費關聯數據逐漸成為研究的主要問題。關聯數據可視化可以直觀、清晰地展示關聯數據集,有較高的用戶接受度。目前對關聯數據可視化研究主要分布在本體可視化、關聯數據可視化瀏覽和關聯數據可視化應用三個方面。從技術原理和實現方法入手,對這三方面所涉及的工具和應用進行通用的關聯數據可視化分析框架構建,可以發現:關聯數據可視化研究呈階梯狀發展,從輔助性的本體可視化到關聯數據的列表式和圖形化瀏覽,進一步深入到關聯數據的可視化應用;圖形化瀏覽是關聯數據可視化的發展趨勢,通過簡單配置就可以使用的工具將會逐漸受到青睞;在關聯數據集上構建可視化Web應用以豐富的圖形展示關聯數據的知識,將會是未來關聯數據可視化研究的重點。
關鍵詞:關聯數據; 可視化; 關聯數據消費;分析框架
中圖分類號:G202 文獻標識碼:A DOI:10.11968/tsyqb.1003-6938.2018065
Abstract The scale of linked data sets has been expanding, and how to consume and use linked data has gradually become the main issue of linked data research. Linked data visualization can display linked data intuitively and clearly and have high user acceptance. After reviewing the relevant literature and tool of linked data visualization, we summarized three aspects of linked data visualization research: ontology visualization, visualization browse of linked data and visualization application of linked data. And then, starting with the technical principle and method, a detailed review of the tools and application involved in these three aspects was made and a visual analysis framework for linked data was designed. The results show that: (1)the research of linked data visualization is slowly in-depth, from ontology visualization to the list and graphical browse of linked data, and further into the visualization application of linked data;(2)the graphical browsing of linked data is the development trend of linked data visualization, and tools that can be used through simple configuration will gradually become popular;(3)Constructing Visual Web Applications on linked data sets to present rich knowledge of linked data will be the focus of research on the visualization of linked data in the future.
Key words linked data; visualization; linked data consumption; analysis frame
1 引言
隨著關聯數據概念的提出和技術發展,關聯數據逐漸成為網絡上發布結構化數據的一種普遍形式,大量結構化數據以關聯數據形式被發布到網絡上,使得關聯數據成為全球數據空間中不可或缺的一部分。近十年來,關聯開放數據云(Linked Open Data Cloud)由最初的12個RDF數據集發展到現今的1163個,數據規模不斷擴大,數據類型不斷豐富,涵蓋生命科學、政府、媒體、出版、社會網絡、地理等領域[1]。關聯數據的發展使得Web上分布著富含語義并相互關聯的海量數據,目前面臨的主要問題是如何消費這些數據、充分發掘關聯數據的價值。為了便于用戶查詢數據,關聯數據集通常都提供SPARQL查詢端點,但是構建SPARQL查詢不僅需要具備語義網方面的專門知識還要對數據集的結構有深入了解,這對于普通用戶顯然是非常困難的。自2010年起,國際語義網會議(International Semantic Web Conference,ISWC)每年都開設“關聯數據消費”(Consuming Linked Data,COLD)討論會,對關聯數據的消費工具、平臺及案例進行介紹,也會涉及到關聯數據可視化的相關技術[2]。此外,從2015年開始ISWC增設了“本體和關聯數據的可視化與交互(Visualization and Interaction for Ontologies and Linked Data,VOILA)”議題,從本體和關聯數據兩個層次研究可視化用戶界面和交互技術以及可視化分析,主要目的是幫助用戶更好的從關聯數據中獲取領域知識[3-4]。
關聯數據采用的數據模型是RDF 圖,它可以被看作是有向標記圖( Directed Labeled Graph),每條有向邊及其所連接的兩個節點對應一個RDF 三元組,再通過RDF鏈接把資源整合成為相互關聯的RDF圖[5]。因此,關聯數據可視化可分為數據模式(即本體)可視化和數據可視化兩個層面:(1)本體主要用來描述實例數據的體系結構,本體可視化采用有向標記圖的形式,通過點、線和圓形展示其體系結構包含的類和類以及類和屬性值之間的關系;(2)數據可視化主要是基于列表或圖形的形式瀏覽關聯數據集。前者提供圖形化界面幫助領域專家編輯本體,屏蔽了直接采用OWL和RDF本體標記語言的復雜性,還能夠以可視化的方式展示體系結構,對普通用戶使用和理解本體有極大的幫助[6]。后者是采用列表和圖形化的方式展示關聯數據集,便于用戶瀏覽和發現知識。一方面,基于列表的瀏覽以“屬性-屬性值”形式展示關聯數據集,這種瀏覽方式充分展現了關聯數據RDF鏈接的特性,使用戶可以沿著有向邊瀏覽整個數據集;另一方面,圖形化的瀏覽以在線方式或者可視化插件提供關聯數據集的可視化展示,用戶可以簡單地配置并構建SPARQL查詢語句,將查詢結果借助可視化工具圖形化展示。隨著語義網技術和可視化技術的普及,關聯數據集的可視化應用成為關聯數據可視化研究的另一重要方向,基于Web的關聯數據集可視化應用,通過對關聯數據集的挖掘和分析,可從多個維度展示關聯數據集隱含的知識。
從以上分析可以看出,關聯數據可以在多方面可視化展示:Schema層面數據的結構、“屬性-屬性值”列表形式的瀏覽、圖形化展示查詢結果以及語義層面的知識可視化。通過對關聯數據可視化相關文獻和工具進行歸納和梳理,發現成果主要集中在本體可視化、關聯數據可視化瀏覽和關聯數據可視化應用。
2 本體可視化
本體可視化主要有桌面本體可視化工具和在線本體可視化工具,前者通過本地下載的方式將本體可視化應用安裝在本地使用,后者通過在線訪問的形式提供本體的可視化編輯和可視化展示。
2.1 桌面本體可視化工具
桌面本體可視化的研究開始得比較早,主要代表性工具有Protégé、RDF Gravity以及IsaViz,至今在本體可視化編輯和瀏覽方面發揮著重要作用。這些工具都是免費開源的,目前僅有Protégé提供更新維護服務。
(1)Protégé[7]由斯坦福大學生物醫學信息學研究中心開發設計,采用圖形化的用戶界面,屏蔽了本體描述語言的復雜性,提供本體中類、關系、屬性和實例的構建。Protégé是縮進列表展示本體的最佳代表,采用縮進的方式展示父類和子類的關系,并且每一個節點只有一個單一的路徑。
(2)RDF Gravity[8]由奧地利薩爾茨堡研究所開發設計的,基于“node-link”圖模式,面向RDF/OWL數據集的圖形可視化工具,采用Jung Graph(Java Universal Network /Graph Framework,Java通用網絡/圖形架構)接口和Jena語義網絡工具包來實現。用戶使用RDF Gravity可以對RDF文件進行全局、局部和自定義方式瀏覽,同時RDF Gravity提供了基于類、屬性和實例的全文搜索功能,并支持多文件的同時可視化。
(3)IsaViz[9]由W3C推出的,基于Java語言的本體可視化工具,提供RDF數據的可視化瀏覽和編輯功能。此外,IsaViz需要在本地部署Java環境,并且下載AT&T;公司(美國電話電報公司)的Graphviz(采用Dot語言腳本描述的圖形)輔助插件來構造可視化圖形。IsaViz采用GSS(Graph Stylesheet,基于CSS和SVG樣式表語言)樣式表以有向圖的方式可視化本體的RDF圖。
2.2 在線本體可視化工具
在線本體可視化工具可以直接通過Web瀏覽器使用,無需本地安裝,減輕了用戶安裝配置可視化工具的負擔。代表性工具有WebProtégé和WebVOWL,其中WebVOWL基于VOWL(Visual Notation for OWL Ontologies,OWL本體的視覺符號)開發。
(1)WebProtégé[10]是在Protégé本體編輯器的基礎上開發的輕量級的在線服務,它將基于桌面的本體編輯和可視化移植到Web環境中,同時支持部署到本地服務器。WebProtégé能夠支持多用戶的協同工作,用戶注冊登陸后會看到自己所擁有的本體,以及其它用戶分享的本體。用戶使用WebProtégé編輯的本體也可以分享給其它用戶,通過在列表中添加協作者的登錄姓名,實現面向特定用戶的本體可視化顯示、編輯和評論。
(2)VOWL由德國斯圖加特大學視覺和交互系統研究所開發,主要是為了解決普通用戶的本體可視化需求而設計的一套OWL語言的圖形化描述符號。該本體描述模型提供了OWL中元素的圖形化描述,采用不同形狀和顏色的圖形,描述本體包含的類、類之間的關系以及屬性,能更直觀可視化展示本體的體系結構[11]。目前采用該本體描述模型實現本體可視化的工具有兩種——ProtégéVOWL和WebVOWL:①ProtégéVOWL是Java編寫的VOWL插件,需要拷貝插件Jar包到Protégé桌面應用中,并在用戶界面中配置后才能使用;②WebVOWL是基于Web的在線本體可視化工具,采用開放的Web標準(HTML、JavaScript、CSS和SVG)設計可視化頁面,并以VOWL定義的圖形描述本體。
鑒于ProtégéVOWL實現的可視化功能與WebVOWL一致,這里以WebVOWL[12]為例,介紹其具體實現方式和整體框架(見圖1)。
WebVOWL可視化本體的處理過程分四步:(1)WebVOWL通過上傳本體文件的方式獲取數據,OWL API①負責解析加載的本體文件;(2)OWL2VOWL轉換器②將本體文件的解析結果轉換成為WebVOWL自定義的OWL2-JSON數據格式,該數據格式包括本體的類、屬性以及數據類型等(如owl:Class,owl:ObjectProperty,xsd:dateTime);(3)VOWL2配置文件定義了本體文件解析后每個元素的圖形和顯示樣式,如圖形的SVG③代碼和CSS樣式;(4)通過力導向圖(Force-Directed Graph)展示本體的體系結構,并支持簡單的過濾,如子類顯示與否、類的屬性顯示與否。
2.3 本體可視化分析
本文所調研的本體可視化工具主要從其類型、開發時間、當前狀態、數據加載方式以及可視化方式五個方面進行對比(見表1)。
本體是用來描述類和類之間、類和屬性之間的關系,早期的本體可視化工具都是基于桌面,主要目的是幫助領域專家構建本體,同時也提供圖形化展示本體的體系結構,如以樹狀圖的形式展示本體中類與類之間的關系。桌面本體可視化工具只有Protégé提供更新服務,其持續更新和維護以及良好的操作性使其成為目前本體編輯和可視化的主要工具。此外,Protégé還提供兩種方式的功能擴展:插件和Java的API,如ProtégéVOWL使Protégé實現了本體圖形化的展示。
在線本體可視化工具無需用戶在本地安裝,WebProtégé和WebVOWL是典型代表。WebVOWL僅提供本體的可視化服務,并不支持本體可視化編輯,但是WebVOWL能從整體上概覽本體,采用力導向圖展示本體的類和類、類和屬性的關系,并可統計本體中類和屬性的數量。
3 關聯數據的可視化瀏覽
3.1 基于列表的瀏覽
基于列表的瀏覽是采用“屬性-屬性值”列表方式展示關聯數據集,并允許用戶沿著RDF鏈接探索并瀏覽整個關聯數據集。基于列表的瀏覽有在線遠程服務和Web瀏覽器插件兩種實現方式。
(1)在線遠程服務方式。通過在線遠程訪問關聯數據瀏覽器,然后在關聯數據瀏覽器中輸入關聯數據集的URL或關聯數據集中某個資源的URI地址,以遠程方式瀏覽關聯數據。早期提供關聯數據遠程瀏覽的工具有Disco、Dipper和Marbles等,但這些工具目前基本處于停止服務狀態,無法進行訪問。遠程服務方式消失的可能原因是:當前許多關聯數據集都提供HTML和RDF兩種表示格式,通過HTTP協議的內容協商機制,采用傳統的HTML瀏覽器用戶在本地就可以列表的方式瀏覽RDF數據,無需再通過這種遠程服務來進行訪問。內容協商機制(Content Negotiation)是HTTP協議提供的對服務器端響應的資源內容進行協商的一種機制,服務器根據客戶端信息請求的類型(text/html或rdf+xml格式),以最適合的表示形式向其返回請求的資源,通常是Web資源的HTML或RDF表示格式。
(2)Web瀏覽器插件方式。通過安裝在本地瀏覽器中的插件來訪問關聯數據集。用戶通過瀏覽器訪問關聯數據集時,利用插件間的切換實現資源的RDF表示格式和HTML表示格式的瀏覽。比較有名的插件有Tabulator和Openlink Data Explorer(ODE)。
Tabulator是較早的關聯數據瀏覽器插件,但是2008年以后已經停止更新服務,且僅支持Firefox3.0。Tabulator以RDF表示格式展示用戶要訪問的關聯數據時,支持RDF/XML、Turtle和N-Triple三種序列化顯示格式。
ODE是OpenLink 項目開發的關聯數據瀏覽器插件,支持的瀏覽器有Internet Explorer、Firefox和Google Chrome等[13]。ODE在瀏覽器中提供數據表示格式切換的選項,在瀏覽發布為關聯數據的網站時點擊鼠標右鍵會出現“Openlink Data Explorer”選項,點擊其中的“View data resource”選項會打開新的頁面,以RDF表示格式展示資源(見圖2)。
ODE的主要工作原理是:關聯數據的解析工作是由ODE的服務器端URIBurner完成,用戶在切換瀏覽方式的時候,資源的URI地址通過HTTP協議傳遞到URIBurner,待服務器完成解析后以“屬性-屬性值”對形式返回OED插件。URIBurner是OpenLink項目開發的數據解析服務器,通過“http://linkeddata.uriburner.com/sparql?query=resource_URI”的形式獲取資源的URI地址,對關聯數據集的語義標簽(如采用RDFa格式或者Pubby發布的關聯數據)進行解析,同時提供RDF/XML、N-Triple和JSON多種序列化格式的顯示[13]。
3.2 圖形化瀏覽
關聯數據的圖形化瀏覽主要有可視化插件和遠程服務兩種方式??梢暬寮捎媚_本嵌入的方式集成到HTML頁面中實現關聯數據的圖形化瀏覽。在線遠程服務主要采用“客戶端瀏覽器和遠程服務器”架構方式實現,根據用戶配置的關聯數據集SPARQL端點或者上傳的本地關聯數據集,采用內置的可視化圖形實現關聯數據集可視化。
(1)可視化插件。該可視化插件主要有兩類,一類是針對專門的多維統計數據,其描述詞表必須是RDF Data Cube Vocabulary(DCV)①;另一類是通用的可視化插件,不受關聯數據中所使用的詞表或本體的限制。
在發布的關聯數據中,語義化數據表是其中重要的一部分,如歐盟委員會“歐洲數字議程(Digital Agenda for Europe )”行動進展和績效統計數據就是以語義化數據表的形式存儲[14]。語義化數據表可視化的典型代表是CubeViz[15]。該可視化插件是德國萊比錫大學計算機學院開發,主要用于可視化展示采用DCV描述的統計關聯數據集。CubeViz以嵌入HTML網頁的方式完成插件的配置,采用餅圖、曲線圖和直方圖對配置的關聯數據集可視化展示。
通用的關聯數據可視化插件比較有代表性的是Sgvizler[16]。該可視化插件集成了開源的Googel Charts圖形類庫,對SPARQL查詢結果可視化展示。Sgvizler提供三種方式構建SPARQL查詢[17]:①在HTML5頁面中直接使用Sgvizler標簽
(2)在線遠程服務方式。在線遠程服務無需用戶進行復雜的配置,僅需用戶在瀏覽器端進行數據源的配置,然后在瀏覽器上執行查詢、選擇和過濾等多種操作,遠程服務器負責處理客戶端的操作,最后將關聯數據集解析結果返回客戶端進行可視化展示。其代表性的工具有RelFinder和RDF:SynopsViz。
RelFinder是P.Heim等人于2009年開發的一款可視化工具,旨在幫助用戶發現關聯數據集中感興趣資源實體之間的關系,其前身是面向DBpedia數據集的對象關系發現工具DBpedia Relationship Finder[18-20]。RelFinder發現關聯數據集中對象間關系的原理為:①用戶在RelFinder瀏覽器的查詢框中輸入要查詢的兩個對象,輸入的對象在數據集中被映射為唯一的實體或者按相關性排序的一組實體列表供用戶選擇;②確定要查找的實體后,RelFinder根據實體間的RDF鏈迭代查找,發現兩個實體間的所有關系;③以可視化導向圖的方式展示實體間的語義關系,可根據用戶預先設定的相關性策略自動過濾相關性較小的關系,僅顯示最優關系。Relfinder用動態視圖展示資源實體間關系,展示方式直觀、生動,并提供關鍵詞過濾,能實現資源實體間關系的局部可視化。除了在線服務,Relfinder還支持本地下載,作為一個Web應用在應用服務器(如Tomcat服務器)中運行,這種方式也是目前國內關聯數據可視化采用的主要方式[3,21-22]。
SynopsViz[23]是一個分層展示和瀏覽關聯數據的在線瀏覽器,主要工作原理是采取層次模型展示關聯數據,避免了數據集較大時的加載負擔。SynopsViz將關聯數據集按類(Class)和屬性(Property)進行統計,并提供對數據集的過濾功能,過濾結果采用時間軸、圖表和TreeMap進行可視化展示。SynopsViz的工作原理分為:關聯數據集上傳、數據集預處理、可視化分析模塊和瀏覽器端可視化四個部分,各部分主要功能為:①關聯數據集上傳:可以上傳本地關聯數據集的RDF文件或遠程關聯數據集的URI地址;②數據集預處理:首先對數據集進行解析,生成類和屬性的分面信息,然后交由分層處理模塊對分層信息進行存儲;③可視化分析模塊:根據瀏覽器端的分類過濾請求,可視化分析模塊調用相匹配的分層信息,如某個類的實例數據;④瀏覽器端可視化:根據用戶的請求,從可視化分析模塊獲取相關數據,采用開源的Google Charts圖形庫對過濾結果進行簡單的統計和分析[23]。
3.3 關聯數據可視化瀏覽分析
所調研的關聯數據可視化瀏覽工具主要從數據集參引方式、可視化展示方式、使用方式以及操作方式四個方面進行對比(見表2)。
(1)數據集參引方式:主要有配置SPARQL查詢端點、上傳本地關聯數據集RDF文件、加載遠程關聯數據集RDF文件以及關聯數據集的瀏覽頁面。
(2)可視化展示方式:主要有兩類方式,一類是基于列表的瀏覽;另一類是圖形化瀏覽。前者以“屬性-屬性值”對形式展示關聯數據集,后者以餅圖、折線圖或直方圖展示關聯數據集或SPARQL查詢結果。其中Sgvizler的可視化圖形來源于Google Charts可視化類庫,CubViz、RelFinder和SynopsViz均內置可視化圖形。
(3)可視化工具使用方式:①以插件的形式安裝到瀏覽器中,直接瀏覽關聯數據;②以可視化類庫的形式嵌入到HTML頁面,其中CubeViz針對專門的語義化數據表,Sgvizler面向通用數據類型兩種,但需要用戶構建SPARQL查詢表達式;③通過瀏覽器訪問的在線遠程服務或者本地應用服務器內運行,Relfinder通過關鍵詞查詢發現實體間關系,SynopsViz可以直接圖形化瀏覽關聯數據。
由于越來越多的關聯數據集提供HTML和RDF兩種表示格式,早期基于列表的可視化瀏覽器和插件工具逐漸停止了服務。目前,只有ODE是以Web瀏覽器插件形式實現關聯數據列表瀏覽,對采用RDFa、D2R或Pubby發布的關聯數據集有較好的可視化支持。
從關聯數據圖形化瀏覽工具的易用性來說,按照其是否需要構造SPARQL查詢分為兩大類:第一類可視化工具操作簡單無需用戶自行構造SPARQL查詢式;第二類需要用戶將可視化工具集成到HTML頁面,且自行構造SPARQL查詢式。這兩類關聯數據圖形化瀏覽工具分析如下:①第一類可視化工具主要有Cubeviz、RelFinder和SynopsViz。Cubeviz是封裝的JavaScript類庫,需要嵌入HTML頁面才能使用,且用戶需要具有一定的HTML網頁設計技術,其可視化圖形相對簡單,僅有餅狀圖和直方圖。此外,Cubeviz僅支持采用DCV詞表描述的統計數據,相對于其它工具來說其通用性較差。SynopsViz提供在線遠程服務,將本地或遠程關聯數據集RDF文件上傳服務器即可直接可視化瀏覽,該工具根據用戶的選擇將過濾結果采用時間軸、圖和表可視化展示。RelFinder主要目的是幫助用戶發現關聯數據集中兩個實例對象的所有關系。因此,有很多領域需要這種發現實體關系的可視化工具,如在基因和疾病相關的生物醫學領域關聯數據中Relfinder可發現基因或者藥物之間的關系;②第二類可視化工具需要用戶自行構造SPARQL查詢表達式,可視化效果完全依賴于SPARQL查詢式,主要有Sgvizler。Sgvizler是封裝好的JavaScript庫,需要嵌入HTML頁面才能使用,但其集成了Google Charts圖形庫,提供更豐富的圖形展示查詢結果。
從所調研的關聯數據可視化工具總體來看,基于列表的瀏覽工具逐漸會被淘汰,其更新服務會慢慢停止,但是對于領域專家來說,這種簡潔的瀏覽方式能更好地了解關聯數據集的結構。圖形化瀏覽工具和插件中不需要用戶構建SPARQL查詢式,通過簡單配置就可以使用工具將會逐漸受到青睞,如RelFinder;需要用戶構建SPARQL查詢式的可視化瀏覽工具靈活性更好,能更有針對性的可視化瀏覽關聯數據集,對專家用戶來說是一種較好的關聯數據可視化瀏覽方式,如Sgvizler。
4 關聯數據可視化應用
4.1 基于Web的關聯數據集可視化應用實例
除了前文所述的關聯數據可視化工具,還有一些語義網應用針對特定的關聯數據集提供可視化分析,具有代表性的有:(1)開放存取期刊《語義網雜志(Semantic Web Journal,SWJ)》論文投稿和審稿數據的語義化及可視化分析;(2)美國的VIZ-VIVO項目;(3)歐洲的關聯高校項目。這些關聯數據可視化應用,面向用戶提供可視化分析和瀏覽,一方面屏蔽了底層關聯數據的復雜性,為用戶提供了友好的數據訪問界面;另一方面,實現了對關聯數據的深度分析,也為發掘關聯數據集中有價值的知識提供了新方法。
(1)SWJ Portal。SWJ是語義網領域的一個開放存儲期刊,該期刊的內容管理系統中采集了大量科學論文元數據、科學論文全文、學者信息和評審人信息,同時也收集了評審人的審稿意見和論文的修改版本等信息[24]。SWJ Portal是加州大學圣塔芭芭拉分校STKO實驗室(Space and Time Knowledge Organization, STKO)的研究人員在SWJ數據集上構建了可視化Web應用。SWJ Portal通過對原始的關系型數據庫進行挖掘和語義轉換,構建了蘊含深度隱性關系的關聯數據,采用Highcharts可視化類庫分模塊、分層次的展示論文作者的地域分布、合作者網絡以及論文主題的演化趨勢等[25]。
SWJ Portal采用Jena的TDB存儲器存儲RDF關聯數據集,以Fuseki作為SPARQL查詢終端,構建客戶端和服務器端架構的可視化應用(見圖4)。SWJ Portal的工作原理為:①可視化界面采用JavaScript的ExtJS①類庫設計可視化界面,結合Highcharts可視化類庫展示關聯數據分析結果;②服務器端可視化模塊由一系列封裝好的SPARQL查詢式組成,負責與關聯數據集查詢終端進行交互;③客戶端與服務器端的交互采用Ajax來實現,根據不同的分析功能調用不同的可視化模塊,并將SPARQL查詢結果以JSON數據格式返回客戶端的圖形。
(2)VIZ-VIVO。VIVO(社交網絡型的科研臉譜網)是康奈爾大學在2004年啟動的項目,旨在方便科研人員通過科研社區進行交流,從而尋找同行并促成合作。VIVO項目采用關聯數據技術將科研人員、機構和學術信息等彼此關聯起來,并提供與外部相關信息的關聯,目前有25個國家的140多個機構實施了VIVO項目[26]。
VIZ-VIVO是在VIVO項目上的擴展,目的是以可視化圖形展示VIVO數據中潛在知識,幫助科研人員發現潛在學術合作者、學者研究主題或學者間合作網絡等[27]。如VIZ-VIVO中“學者-主題”網絡圖可以清晰展示學者與主題的關系,選中學者會展示其研究主題,選中主題會展示研究該主題的所有學者(見圖5)。
VIZ-VIVO的工作原理為:①采用D3可視化類庫展示VIVO中隱含的知識,通過Ajax向服務器端發送數據請求;②服務器端的配置文件根據瀏覽器端不同可視化請求分配不同SPARQL查詢模塊,然后將查詢結果以Json數據格式返回瀏覽器端可視化展示。
(3)歐洲的關聯高校項目。Linked Universities[28](關聯的大學)是歐洲多所高校間的聯盟,致力于將高校的各類開放數據(如學術成果信息、教職工人事信息、課程信息和學生信息等)發布為關聯數據。目前,Linked Universities聯盟中有10所大學對其關聯數據集開放了SPARQL查詢終端,提供了訪問和使用高校開放數據集的新方式。在這10所大學中僅有Aalto大學設計了關聯數據集可視化分析平臺,采用Google Charts圖形庫的餅圖或柱狀圖來展示學生選課信息、教學單位教師數量等[29]。此外,高級用戶可以在可視化分析平臺的SPARQL查詢窗口中構建SPARQL查詢式,查詢結果以“屬性-屬性值”的形式返回,然后采用Google Charts提供的圖形編輯器以合適圖形展示查詢結果。
4.2 關聯數據可視化應用分析
根據三個關聯數據可視化應用實現方式的不同,本文分別從客戶端的實現技術、客戶端和服務器端交互方式、可視化工具的類型、數據存儲與查詢接口的設計方式對所調研的關聯數據可視化應用進行對比(見表3)。
(1)客戶端的實現技術:以富客戶端技術和普通HTML來實現。富客戶端技術主要基于JavaScript開源類庫有較好的用戶體驗,且可視化模塊間相互獨立易于維護及可視化功能擴展。
(2)客戶端和服務器端交互方式:主要有Ajax技術、傳統的Web交互技術。數據請求主要通過調用應用系統封裝的SPARQL語句和用戶自行構造SPARQL查詢式來實現。與傳統的Web交互技術相比,Ajax以數據交互為主導,無需重新刷新頁面即可實現客戶端和服務器端的數據交互。
(3)可視化展示方式:以Highcharts、D3、Google Charts為代表的開源可視化類庫。
(4)數據存儲與查詢接口:采用JenaTDB存儲器存儲關聯數據,Jean Fuseki負責提供數據訪問的接口;系統自己的存儲器存儲關聯數據,并提供數據訪問接口。
從所調研的關聯數據可視化應用詳情來看,SWJ Portal、VIZ-VIVO和Aalto大學的可視化應用都是在各自關聯數據集上通過SPARQL查詢端口構建Web應用。Aalto大學的關聯數據可視化應用,不僅提供簡單的可視化統計,同時為高級用戶提供了SPARQL查詢窗口,并可視化展示查詢結果。而其它兩個可視化Web應用都不需用戶自行構造SPARQL查詢式,均提供用戶直接訪問的頁面。
SWJ Portal和VIZ-VIVO均采用數據挖掘技術對其數據進行了深入挖掘并以關聯數據形式發布,譬如學者研究主題挖掘、作者機構地理位置提取等。與VIZ-VIVO不同的是,SWJ Portal集成了許多外部開放的數據,如微軟學術研究(Microsoft Academic Search,MAS)包括大量開放的學術作品和學者數據。SWJ Portal利用外部開放數據對作者進行重名消歧,獲取每個作者的唯一所屬機構,通過作者機構信息獲取機構所在地理位置,進而可視化展示每篇論文引文的地理空間分布。
4.3 關聯數據可視化分析框架
通過上述調研工作,本文提出了關聯數據可視化分析技術框架,該框架主要包括四個部分:關聯數據發布存儲、數據查詢與格式轉換、數據請求控制層和數據可視化(見圖6)。
(1)關聯數據集存儲:將數據源進行語義描述,形成資源間相互關聯的語義化RDF數據,采用三元組存儲器Jena TDB存儲RDF數據集。此外,針對不同的數據源可以適當采用數據挖掘或文本挖掘方法,提取數據源中有價值的知識,在此基礎上進行RDF數據可視化將會提高知識發現能力。
(2)數據查詢與格式轉換:由Jena的Fuseki提供SPARQL查詢的訪問接口,以響應可視化應用的數據請求。從Jena TDB存儲器獲取請求數據后,為了滿足可視化圖形的數據格式,需對獲取的數據進行格式轉換,如xml數據格式。
(3)數據請求控制層:數據請求控制器負責分發數據可視化層的數據請求,并指定給某一個可視化分析模型,可視化分析模型由多個封裝的SPARQL查詢表達式組成。同時,可視化分析模塊可以通過查詢其他開放關聯數據集來豐富或者集成已有的關聯數據,使可視化結果能發現更多有價值的信息。
(4)數據可視化:圖形化展示采用開源的D3或Highcharts等可視化圖形庫,這些圖形庫對JSON/XML格式數據有良好支持,且內部封裝了Ajax請求無需過多修改即可完成數據請求的發送與接收。此外,可視化類庫創新的拖拽重計算、豐富的圖形視圖大大增強了用戶體驗和數據圖形化展示能力。
5 結語
隨著關聯數據的發展,大量結構化數據以關聯數據形式被發布到網絡上,如何消費和使用關聯數據集成為當前研究的主要問題。關聯數據可視化可以直觀、清晰地展示關聯數據,有較高的用戶接受度,一定程度上幫助人們從關聯數據中獲取有價值的知識。
通過對關聯數據可視化相關文獻和工具進行調研分析,本文得出以下結論:
(1)本體是一種特殊的關聯數據,本體可視化更加注重圖形化表示,目的是讓用戶快速理解本體的整體結構和內部關系。本體可視化逐漸從只有專家用戶使用轉變到普通用戶使用,展現形式也趨向于生動的圖形化以便于用戶理解。同時,本體可視化工具也提供在線服務,用戶直接通過瀏覽器進行訪問和使用,不僅增加交互性,也使用戶免于工具配置的負擔,主要在線可視化工具有WebProtégé和WebVOWL。
(2)關聯數據集列表形式瀏覽是關聯數據最基本的可視化方式,以“屬性-屬性值”對形式展示三元組數據,屬性通常來自于本體或元數據標準,然而對于不熟悉詞表或本體含義的普通用戶來說很難發現有價值的信息;其次,當前關聯數據集均提供HTML和RDF兩種表示格式,通過HTTP協議的內容協商機制,用戶采用傳統的HTML瀏覽器就可以實現關聯數據集的“屬性-屬性值”列表式瀏覽。因此,提供列表式瀏覽的RDF數據瀏覽器(或插件)目前已逐漸被淘汰。
(3)關聯數據圖形化瀏覽是關聯數據可視化瀏覽的發展趨勢,主要采用可視化插件和遠程服務的方式實現關聯數據可視化,通過采用各類圖形(如Google Charts的餅圖、折線圖和散點圖等)呈現數據集,能夠直觀地展示數據集中各類實體間的關系或統計相關的實例,并相對于列表式瀏覽有更好的用戶體驗。圖形化瀏覽的關鍵是SPARQL查詢式的構建,有些圖形化瀏覽工具需要用戶自行構造SPARQL查詢語句(如Sgvizler),這對普通用戶具有很大挑戰,但是其可以根據用戶需求來有針對性的可視化展示數據。那些不需要用戶構建SPARQL查詢或通過簡單配置就可以使用的工具將會逐漸受到青睞,如針對語義化數據表的Cubeviz、發現數據集中實體關系的RelFinder以及分層展示關聯數據集的SynopsViz。
(4)關聯數據可視化Web應用直接提供在線的可視化服務,屏蔽了關聯數據集查詢、可視化插件或工具配置的復雜性,將會是未來關聯數據消費的新方式。關聯數據可視化Web應用可以結合關聯數據集的特點,針對特定任務和需求挖掘關聯數據集的知識,如對數據進行擴充或者挖掘數據隱含的知識,進而發布為關聯數據增加其知識可視化能力。國外關聯數據可視化Web應用取得了一定的進展,但國內尚未有關聯數據可視化Web應用的研究,大都是基于可視化工具的簡單應用研究。通過對關聯數據可視化應用相關技術和功能的分析,我們提出了通用的關聯數據可視化分析框架,該框架包括四個部分:關聯數據發布存儲、數據查詢與格式轉換、數據請求控制層和數據可視化,每部分都有獨立的功能來處理且相互關聯,借助Web服務器(如Tomcat)來實現可視化應用。在后續研究中,我們將探索科學論文書目數據深度語義化問題,深入挖掘科學論文書目數據中隱含的知識并構建關聯數據,在此基礎上實現科學論文關聯數據集的交互式可視化。
參考文獻:
[1] The Linking Open Data cloud diagram[EB/OL].[2018-02-26].http://lod-cloud.net/.
[2] Seventh International Workshop on Consuming Linked Data[EB/OL].[2018-03-22].https://www.dcc.uchile.cl/cold2016/.
[3] Visualization and Interaction for Ontologies and Linked Data[EB/OL].[2018-03-27].http://voila2016.visualdataweb.org/.
[4] Call for Papers:Special Issue on"Visual Exploration and Analysis of Linked Data"[EB/OL].[2018-03-27].http://www.semantic-web-journal.net/blog/call-papers-special-issue-visual-exploration-and-analysis-linked-data.
[5] 洪娜,錢慶,范煒,等.關聯數據中關系發現的可視化實踐[J].現代圖書情報技術,2013(2):11-17.
[23] Bikakis N,Skourla M,Papastefanatos G.rdf:SynopsViz-a framework for hierarchical linked data visual exploration and analysis[A].European Semantic Web Conference:ESWC 2014[C].Springer International Publishing,2014:292-297.
[24] McKenzie G,Janowicz K,Hu Y,et al.Linked scientometrics:designing interactive scientometrics with linked data and semantic web reasoning[A].Proceedings of the 2013th International Conference on Posters & Demonstrations Track-Volume 1035[C].CEUR-WS.org,2013:53-56.
[25] Hu Y,Janowicz K,Mckenzie G,et al.A Linked-Data-Driven and Semantically-Enabled Journal Portal for Scientometrics[A].International Semantic Web Conference[C].Springer-Verlag New York,Inc,2013:114-129.
[26] About VIVO[EB/OL].[2017-10-16].http://vivoweb.org/info/about-vivo.
[27] Javed M,Payette S,Blake J,et al.VIZ-VIVO:Towards Visualizations-driven Linked Data Navigation[A].Visualization and Interaction for Ontologies and Linked Data(VOILA!2016)[C].2016:80-92.
[28] Linked Universities[EB/OL].[2017-10-22].http://linkeduniversities.org/lu/index.php/datasets-and-endpoints/.
[29] Alonen M,Kauppinen T,Suominen O,et al.Exploring the Linked University Data with Visualization Tools[A].European Semantic Web Conference:ESWC 2013[C].Springer Berlin Heidelberg,2013:204-208.
作者簡介:曲佳彬,男,南京大學信息管理學院博士研究生、煙臺大學圖書館館員;歐石燕,女,南京大學信息管理學院教授,博士生導師。