基于關(guān)聯(lián)數(shù)據(jù)的集成信息平臺語義化實現(xiàn)方法研究

2016-05-14 05:15:08湯怡潔張敏丁曉芹

現(xiàn)代情報 2016年6期

湯怡潔張敏丁曉芹

〔摘要〕首先，針對關(guān)聯(lián)數(shù)據(jù)的國內(nèi)外發(fā)展現(xiàn)狀和相關(guān)技術(shù)進展進行研究，并且調(diào)研了目前主要的關(guān)聯(lián)數(shù)據(jù)集，并深入研究了DBPedia數(shù)據(jù)集、DBLP數(shù)據(jù)集和CORDIS數(shù)據(jù)集。接著基于中國科學(xué)院集成信息平臺CASIIP，同時結(jié)合中國科學(xué)院研究所群組集成知識平臺項目一期、二期的建設(shè)情況，充分分析平臺語義化擴展方面的需求和可行性，并且在關(guān)聯(lián)數(shù)據(jù)的基礎(chǔ)上提出了CASIIP語義化的擴展解決方案。最后在CASIIP的內(nèi)容管理組件、搜索組件和綜合資源管理組件中利用DBPedia的lookup和Spotlight分別實現(xiàn)了組件語義化擴展。實驗證明，該方法合理可行，為CASIIP實現(xiàn)從基礎(chǔ)內(nèi)容發(fā)布建站平臺軟件到語義化集成資源的平臺軟件發(fā)展奠定了基礎(chǔ)。

〔關(guān)鍵詞〕關(guān)聯(lián)數(shù)據(jù)；IIP；信息平臺；語義化；DBPedia；關(guān)聯(lián)數(shù)據(jù)集

〔中圖分類號〕G250.7 〔文獻標識碼〕A 〔文章編號〕1008-0821（2016）06-0066-08

〔Abstract〕First，according to the related data at home and abroad development status and technical progress of research and investigation of the current major linked data sets，and in-depth study of the DBPedia data sets，the DBLP data set and CORDIS data set.Then based on the Chinese Academy of Sciences integrated information platform CASIIP，combined with China Academy of Sciences Institute of group knowledge integration platform project phase，phase II construction，a full analysis of semantic platform extended the demand and feasibility of，and in the data association based on the proposed solution CASIIP semantic expansion.Finally in the CASIIP content management module，search components and integrated resource management components using DBPedia the lookup and spotlight respectively，to achieve the assembly semantic expansion.Experiments showed that the method was reasonable and feasible.CASIIP implementation from the foundation content release station platform software to the semantic resource integration platform software development laid the foundation.

〔Key words〕linked data；IIP；information platform；semantic expansion；DBPedia；linked data set

中國科學(xué)院集成信息平臺（CASIIP）是為研究所一線科研人員以及所圖書館員提供信息集成與交互服務(wù)的個性化門戶平臺，需要在充分利用研究所圖書館資源的同時，實現(xiàn)對第三方開放資源的集成服務(wù)，并能夠通過平臺建立起科研人員與圖書館員之間良好的互動交互機制，同時基于不同科研用戶的需要，提供用戶個性化組織和利用信息資源與服務(wù)的功能。目前平臺在中科院研究所得到廣泛應(yīng)用，已經(jīng)在62個研究所開展應(yīng)用服務(wù)。

隨著互聯(lián)網(wǎng)知識內(nèi)容產(chǎn)出方式的不斷變化，用戶所需求的數(shù)字知識資源越來越廣泛化綜合化，類型和格式也日益復(fù)雜化多樣化。與此同時，關(guān)聯(lián)數(shù)據(jù)技術(shù)的快速發(fā)展增強了語義網(wǎng)技術(shù)的可行性，近年來日益增長的關(guān)聯(lián)開放數(shù)據(jù)網(wǎng)絡(luò)為實現(xiàn)計算機自動發(fā)現(xiàn)和處理網(wǎng)絡(luò)上異構(gòu)的來自不同數(shù)據(jù)源的數(shù)據(jù)提供了便利。面對用戶需求的變化和外部關(guān)聯(lián)數(shù)據(jù)云的爆發(fā)式增長，如何利用關(guān)聯(lián)數(shù)據(jù)云中的數(shù)據(jù)對CASIIP平臺進行語義化擴展是本文重點討論的問題。

1 關(guān)聯(lián)數(shù)據(jù)與關(guān)聯(lián)數(shù)據(jù)集的發(fā)展近況

1.1 關(guān)聯(lián)數(shù)據(jù)整體概述

關(guān)聯(lián)數(shù)據(jù)（Linked Data）[1]的宗旨是構(gòu)建計算機能理解的具有結(jié)構(gòu)化和富語義的數(shù)據(jù)網(wǎng)絡(luò)，是在2006年由Tim Berners-Lee首次提出的。這一概念的提出能夠更好地支持構(gòu)建智能化的應(yīng)用，彌補目前僅僅是人能讀懂的文檔網(wǎng)絡(luò)的不足。關(guān)聯(lián)數(shù)據(jù)通過網(wǎng)絡(luò)把以前沒有關(guān)聯(lián)的相關(guān)數(shù)據(jù)連接起來，成為推動語義Web發(fā)展的重要方式之一。

關(guān)聯(lián)數(shù)據(jù)已經(jīng)被W3C推薦為語義網(wǎng)最佳實踐，已經(jīng)成為當前語義網(wǎng)領(lǐng)域研究和實踐的熱門主題。W3C為促進語義網(wǎng)和關(guān)聯(lián)數(shù)據(jù)的發(fā)展所倡導(dǎo)的“關(guān)聯(lián)開放數(shù)據(jù)項目（Linked Open Data Project）”從2006年至今，已經(jīng)吸引了多領(lǐng)域和無數(shù)參與者的關(guān)注，將數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)并且相互關(guān)聯(lián)起來，形成了關(guān)聯(lián)數(shù)據(jù)云（LOD Cloud），也是實質(zhì)的數(shù)據(jù)網(wǎng)絡(luò)。近年來關(guān)聯(lián)開放數(shù)據(jù)網(wǎng)絡(luò)以驚人的速度增長，并且仍然保持高速地發(fā)展。截至2014年8月份，整個關(guān)聯(lián)開放數(shù)據(jù)網(wǎng)絡(luò)已經(jīng)包含了570個關(guān)聯(lián)數(shù)據(jù)集，并通過2 909個鏈接集進行相互關(guān)聯(lián)，如圖1所示。

1.2 關(guān)聯(lián)數(shù)據(jù)集分析

1.2.1 關(guān)聯(lián)數(shù)據(jù)集調(diào)研

DataHub作為一個數(shù)據(jù)注冊服務(wù)中樞，目前已經(jīng)收錄了9 000多個數(shù)據(jù)集，其中屬于Linking Open Data Cloud組的數(shù)據(jù)集有212個[3]。DataHub是基于CKAN[4]構(gòu)建的，CKAN是一個開源的Python框架。在CKAN上注冊關(guān)聯(lián)數(shù)據(jù)集必須滿足以下幾個條件：①所有數(shù)據(jù)條目通過可參引的URIs可以訪問；②所有的數(shù)據(jù)必須以規(guī)范的RDF格式（RDFa，RDF/XML，Turtle，N-Triples）描述；③數(shù)據(jù)集至少包含1 000個三元組；④數(shù)據(jù)集與其他關(guān)聯(lián)數(shù)據(jù)集之間至少包含50個有效鏈接；⑤同時需要說明數(shù)據(jù)集允許訪問的形式（RDF crawling，RDF dump，SPARQL endpoint）。主要的關(guān)聯(lián)數(shù)據(jù)集（部分）如表1所示。

1.2.2 DBPedia數(shù)據(jù)集分析

DBpedia[5]由柏林自由大學(xué)和萊比錫大學(xué)的研究人員發(fā)起，與OpenLink Software公司合作，致力于從維基百科的結(jié)構(gòu)化和半結(jié)構(gòu)化信息中抽取數(shù)據(jù)并生成RDF三元組，將其組織后形成龐大的數(shù)據(jù)集，與外部的關(guān)聯(lián)數(shù)據(jù)連接，提供給人們使用。DBPedia數(shù)據(jù)來源于WikiPedia，以定時抽取和實時監(jiān)測兩種模式同步數(shù)據(jù)，解決了目前知識庫建設(shè)中存在的數(shù)據(jù)規(guī)模與其結(jié)構(gòu)化程度之間的矛盾，以較低成本建設(shè)和維護結(jié)構(gòu)化程度較高的大規(guī)模海量知識庫。DBPedia采用基于語義Web的知識組織模式，遵循RDF語法描述知識并通過4種知識分類方法進行語義分類，從而實現(xiàn)了知識內(nèi)容的跨領(lǐng)域性[6]。

在LOD關(guān)聯(lián)開放數(shù)據(jù)網(wǎng)絡(luò)中，DBPedia作為最主要的一個數(shù)據(jù)中樞與其他開放關(guān)聯(lián)數(shù)據(jù)集進行鏈接，以DBPedia為圓心，通過RDF鏈接直接或間接的輻射到外部數(shù)據(jù)集。DBPedia 2014數(shù)據(jù)集中更是包含了5 000萬左右的RDF鏈接與外部關(guān)聯(lián)數(shù)據(jù)集進行關(guān)聯(lián)，鏈接數(shù)量排名前十位的關(guān)聯(lián)數(shù)據(jù)集如表2所示。

同時，越來越多的數(shù)據(jù)集反向鏈接到DBPedia中，鏈接總數(shù)超過3 900萬個，如ACM數(shù)據(jù)集、NSF數(shù)據(jù)集、DrugBank等。

DBpedia提供了URI查找服務(wù) DBpedia Lookup[7]，即通過用戶提供的關(guān)鍵詞查找相關(guān)的URI，實現(xiàn)方式包括關(guān)鍵詞查詢（Keyword search）和詞前綴查詢（Prefix search）。查詢結(jié)果格式為XML文件，內(nèi)容包括URI，標簽、簡短的描述，類型、分類和在Wikipedia的內(nèi)部鏈接引用次數(shù)。

DBpedia同時也提供了類似語義標注的工具DBpedia Spotlight[8]，能對自由文本中所涉及到的DBpedia概念進行自動標注，為非結(jié)構(gòu)化信息資源通過DBpedia關(guān)聯(lián)到關(guān)聯(lián)數(shù)據(jù)云（Linked Data Cloud）提供了實現(xiàn)基礎(chǔ)。該工具可執(zhí)行命名實體的抽取，包括實體檢測和命名消歧，也可以在其他信息抽取任務(wù)中構(gòu)建自己的命名實體識別解決方案。

1.2.3 DBLP數(shù)據(jù)集分析

DBLP由德國特里爾大學(xué)的一個團隊開發(fā)和維護[9]，提供計算機領(lǐng)域高質(zhì)量的科學(xué)文獻搜索服務(wù)，并且只儲存這些文獻的相關(guān)元數(shù)據(jù)，如標題、作者、發(fā)表日期等，不提供全文下載。截至到2015年4月DBLP已經(jīng)收錄有2 963 980篇文獻信息，該數(shù)據(jù)集遵循ODC-BY 1.0數(shù)據(jù)開放協(xié)議供用戶公開使用。DBLP收錄的文獻類型有Journal Article、Book and Theses、Editorship、Parts in Books or Collections、Informal Publications、Conference and Workshop Papers、Reference Works共7類，提供的數(shù)據(jù)描述信息包括author、title、booktitle、pages、year、address、journal、volume、number、month、url、cite、publisher、note、isbn、series、chapter等。

DBLP利用ReSIST項目構(gòu)建的RKB Explorer對外發(fā)布關(guān)聯(lián)數(shù)據(jù)，該數(shù)據(jù)集的數(shù)據(jù)相對滯后，最近的更新數(shù)據(jù)是2013年3月，包含43 153 440三元組，4.4G的RDF數(shù)據(jù)。DBLP提供SPARQL Endpoint語義查詢服務(wù)，相關(guān)的SPARQL查詢服務(wù)地址為：http：∥dblp.rkbexplorer.com/sparql/？query=。

1.2.4 CORDIS數(shù)據(jù)集分析

歐盟研發(fā)信息服務(wù)委員會（The Community Research and Development Information Service，CORDIS）發(fā)布的關(guān)聯(lián)數(shù)據(jù)集CORDIS包含了所有歐盟的計劃和項目信息[10]。該數(shù)據(jù)集中主要描述的實例類有4個（人員、機構(gòu)、計劃和項目），屬性有44個（如項目資助、人員所屬單位、項目起止日期、項目所屬計劃等）。在數(shù)據(jù)集中總共擁有人員實例93 669個、機構(gòu)實例248 581個、計劃實例764個、項目實例84 801個。

CORDIS數(shù)據(jù)集是通過D2R Server進行發(fā)布的，數(shù)據(jù)集不僅提供關(guān)聯(lián)數(shù)據(jù)的瀏覽服務(wù)，同時也支持通過SPARQL Endpoint進行數(shù)據(jù)查詢，相關(guān)的SPARQL查詢服務(wù)地址為：http：∥wifo5-04.infomatik.uni-mannheim.de/cordis/sparql。

2 利用關(guān)聯(lián)數(shù)據(jù)實現(xiàn)IIP語義擴展的方法研究

2.1 IIP組件使用情況分析

中國科學(xué)院集成信息平臺CASIIP是一套基于Portal和CMS內(nèi)容管理的集成信息系統(tǒng)，系統(tǒng)針對研究所、項目組、實驗室、信息中心以及科研用戶團隊建立集成信息平臺的需求而設(shè)計，為用戶進行信息加工、組織和發(fā)布提供相關(guān)的服務(wù)，具有①簡單、靈活、實用；②構(gòu)建多社區(qū)服務(wù)；③專題數(shù)據(jù)庫服務(wù)；④數(shù)據(jù)可視化功能；⑤集中式管理等特點。IIP平臺在中科院“研究所群組集成知識平臺可持續(xù)服務(wù)能力建設(shè)”項目中得到了廣泛應(yīng)用，本項目針對群組一期、二期選用IIP平臺的23個研究所，100多個平臺進行了分析，具體調(diào)研的組件包括內(nèi)容管理、綜合資源、第三方資源集成、交互以及其他各種類型的組件，總共包括15個以上組件，具體使用情況如圖2所示。圖2 IIP平臺內(nèi)組件使用情況

通過對IIP平臺組件使用情況調(diào)研發(fā)現(xiàn)，使用頻率最高，涵蓋數(shù)據(jù)量最大的組件是內(nèi)容管理組件和綜合資源組件。在各個研究所的群組平臺中，內(nèi)容管理組件中的單篇全文組件主要用于描述科研團隊人員信息、機構(gòu)組織信息、儀器設(shè)備信息等；標題列表組件主要用于發(fā)布學(xué)術(shù)動態(tài)、各類學(xué)科快報等。綜合資源組件多數(shù)情況下用于集成論文信息，同時也可以集成專利、項目、會議等各種資源信息。

2.2 基于關(guān)聯(lián)數(shù)據(jù)的IIP語義擴展方法

根據(jù)上述研究，再結(jié)合目前中國科學(xué)院集成信息平臺建設(shè)的實際情況，關(guān)聯(lián)數(shù)據(jù)在集成信息平臺的語義擴展方法的核心思想是利用關(guān)聯(lián)數(shù)據(jù)技術(shù)將集成信息平臺中的數(shù)據(jù)信息進行語義標注，并擴展關(guān)聯(lián)外部的各大關(guān)聯(lián)數(shù)據(jù)集。關(guān)聯(lián)數(shù)據(jù)可以為集成信息平臺擴展資源信息提供結(jié)構(gòu)化的數(shù)據(jù)基礎(chǔ)，提供多個分布式異構(gòu)數(shù)據(jù)源整合的關(guān)聯(lián)訪問，將來自不同數(shù)據(jù)源的同一個實體數(shù)據(jù)進行整合，返回給用戶關(guān)于該實體的盡可能多的相關(guān)信息的統(tǒng)一視圖，從而為用戶提供資源發(fā)現(xiàn)和訪問服務(wù)的新的視角。簡單來說，就是關(guān)聯(lián)數(shù)據(jù)允許集成信息平臺關(guān)聯(lián)到更廣泛的信息資源，并不局限于資源本身的信息，可以擴充科研人員、所屬機構(gòu)、科研成果以及其所屬學(xué)科主題等其他信息到其他任何一個存在該信息描述的數(shù)據(jù)源。

3 IIP語義擴展模塊設(shè)計與實現(xiàn)

3.1 IIP關(guān)聯(lián)數(shù)據(jù)標引

單篇全文組件是IIP平臺中最主要的內(nèi)容呈現(xiàn)組件之一，用于顯示后臺內(nèi)容管理組件發(fā)布的某篇文章的具體內(nèi)容，通常用于描述科研團隊人員信息、機構(gòu)組織信息、研究進展和儀器設(shè)備信息等。IIP關(guān)聯(lián)數(shù)據(jù)標引主要是針對IIP單篇全文組件進行語義化擴展，利用DBPedia關(guān)聯(lián)數(shù)據(jù)集中的概念對文章內(nèi)容進行標引。通過標引可以使IIP內(nèi)部數(shù)據(jù)與對應(yīng)的DBPedia知識庫中的詞條關(guān)聯(lián)上，從而擴展了IIP內(nèi)部數(shù)據(jù)的可讀性和豐富性。

3.1.1 模塊設(shè)計與實現(xiàn)

單篇全文組件的語義化擴展的設(shè)計思路是在不改變原有組件的使用和操作流程的基礎(chǔ)上，通過用戶選擇自定義的方式支持語義化標引，用戶可以在組件配置界面中勾選是否采用DBPedia關(guān)聯(lián)數(shù)據(jù)集進行文章內(nèi)容的標引操作。整個組件的默認設(shè)置是不實現(xiàn)關(guān)聯(lián)數(shù)據(jù)標引，當用戶手工勾選后，則界面呈現(xiàn)的文章內(nèi)容是經(jīng)過標引后的結(jié)果，正確標引命中的詞出現(xiàn)超鏈接，點擊直接跳轉(zhuǎn)至DBPedia中相關(guān)的詞條，實現(xiàn)了語義擴展閱讀。具體的組件功能示意圖如圖3所示。

從圖3中可以看出，針對單篇全文組件流程的二次開發(fā)改進主要集中在2個方面，一個是在組件配置過程中，加入了語義擴展配置選項；另一個是在組件的文章呈現(xiàn)流程中，根據(jù)語義擴展配置選項，實現(xiàn)調(diào)用DBPedia Spotlight工具實現(xiàn)語義標引的分支。

在單篇全文組件語義化擴展實現(xiàn)過程中，文章內(nèi)容如何通過第三方開源工具Spotlight實現(xiàn)語義標引是關(guān)鍵技術(shù)點。組件首先采用htmlparser包進行內(nèi)容的過濾，將過濾完成的純文本字符串通過HttpURLConnection傳給DBPedia Spotlight第三方工具，最后返回xml結(jié)果。整體模塊流程如圖4所示，當組件根據(jù)配置信息檢測到該組件配置為語義化擴展組件時，則直接進入語義化擴展處理流程進行操作。否則，直接顯示從數(shù)據(jù)庫中獲取的原始文章內(nèi)容。

由于IIP中的內(nèi)容發(fā)布組件支持html在線編輯器，大部分發(fā)布的文章內(nèi)容都包含大量的html代碼來控制整篇文章的格式，但是這些html代碼不能帶入第三方標引工具進行標引處理，一則會出現(xiàn)url超長現(xiàn)象，二則會導(dǎo)致標引結(jié)果的不準確性。因此，整個語義化擴展處理流程的第一步就是對文本進行清洗過濾，然后在此基礎(chǔ)上進行語義化標引操作。整個處理流程的關(guān)鍵偽代碼如下：

根據(jù)組件配置信息判斷是否進行語義化擴展

IF（enableDBPedia==true）開始語義化擴展操作

構(gòu)建Parser parser=new Parser（articleContent）；

TextExtractingVisitor visitor=new TextExtractingVisitor（）；

parser.visitAllNodesWith（visitor）；

執(zhí)行過濾后的文章內(nèi)容字符串dealwithArticleContent=visitor.getExtractedText（）.trim（）；

將字符串進行URLEncode編碼；

帶入第三方開源工具spotlight=″http：∥spotlight.dbpedia.org/rest/annotate？text=″+searchWord+″&confidence=0.2&support=20″；

URL restServiceURL=new URL（spotlight）；

利用HttpURLConnection，（HttpURLConnection） restServiceURL.openConnection（）；

httpConnection.setRequestMethod（″GET″）；

httpConnection.setRequestProperty（″Accept″，″application/xml″）；

BufferedReader responseBuffer=new BufferedReader（new InputStreamReader（（httpConnection.getInputStream（））））；

ByteArrayOutputStream semanticArticleStream=new ByteArrayOutputStream（）；

while（（i=responseBuffer.read（））！=-1）{semanticArticleStream.write（i）；}

最終獲得結(jié)果語義標引的文本內(nèi)容semanticArticle=semanticArticleStream.toString（）；

結(jié)束語義化擴展操作，將處理完成的文本內(nèi)容放入單篇全文組件中

journalArticleContent.setContent（semanticArticle）；

3.1.2 實現(xiàn)效果

IIP關(guān)聯(lián)數(shù)據(jù)標引實現(xiàn)效果以群組一期中國科學(xué)院大學(xué)建設(shè)的“凝聚態(tài)理論與計算材料物理實驗室”平臺中的一篇實驗室研究方向介紹的文章內(nèi)容為例，通過DBPedia語義化標引前后的實現(xiàn)效果如圖5所示。圖5 關(guān)聯(lián)標引實現(xiàn)效果

從圖5中可以看出，通過配置“啟用標引”選項，發(fā)布的文章內(nèi)容實現(xiàn)了DBPedia的詞匯標引，在能與DBPedia數(shù)據(jù)集中匹配的內(nèi)容下加上了相關(guān)的鏈接。點擊鏈接直接跳轉(zhuǎn)到DBPedia中相關(guān)詞條的描述頁面，如點擊“Condensed matter physics”，進入了DBPedia中“凝聚態(tài)物理”詞條的描述頁面，包含了基本描述、涉及的主題，等價概念等。

3.2 IIP關(guān)聯(lián)數(shù)據(jù)搜索

IIP關(guān)聯(lián)數(shù)據(jù)搜索主要分為兩種服務(wù)模式，一種是人工輸入搜索；一種是自動擴展搜索。人工輸入搜索是基于IIP搜索組件，擴充DBPedia檢索選項，將用戶輸入的檢索詞送入DBPedia數(shù)據(jù)集中進行檢索并返回相關(guān)的結(jié)果列表。自動擴展搜索是基于IIP綜合資源組件，該組件可以動態(tài)的建立用戶自己的知識庫，滿足用戶之間知識積累和共享的要求。在IIP綜合資源組件顯示每條資源的詳細信息頁面中，根據(jù)每條資源的標題自動送入DBPedia數(shù)據(jù)集中檢索，獲取到的相關(guān)結(jié)果作為該資源的擴展信息呈現(xiàn)在同一頁面內(nèi)。

3.2.1 模塊設(shè)計與實現(xiàn)

IIP關(guān)聯(lián)數(shù)據(jù)搜索的功能擴展主要在IIP搜索組件和IIP綜合資源組件中進行，利用DBPedia的URI查找服務(wù)-DBpedia Lookup實現(xiàn)DBPedia的數(shù)據(jù)集檢索。由于同時針對IIP的兩個功能組件進行關(guān)聯(lián)數(shù)據(jù)搜索擴展服務(wù)，因此整體模塊設(shè)計思路是在系統(tǒng)底層開發(fā)一個公共組件用于與外部DBPedia數(shù)據(jù)集進行通訊，在公共組件的上層提供接口直接支持搜索組件和綜合資源組件的調(diào)用，這種設(shè)計模式更利于系統(tǒng)后續(xù)擴展與再開發(fā)。具體的組件功能示意圖如圖6所示。

從圖6中可以看出，DBPedia擴展檢索組件的開發(fā)是實現(xiàn)關(guān)聯(lián)數(shù)據(jù)搜索的主要工作，另外需要對IIP中兩個現(xiàn)有組件進行二次開發(fā)，調(diào)用DBPedia擴展檢索組件的功能，最終實現(xiàn)人工搜索和自動搜索兩種服務(wù)模式。具體而言，DBPedia擴展檢索組件通過Apache Jakarta Common下的子項目httpclient提供的jar包調(diào)用DBPedia lookup查詢服務(wù)接口實現(xiàn)與DBPedia DataSet的通訊。在綜合資源組件中通過調(diào)用擴展檢索組件接口，實現(xiàn)綜合資源本地內(nèi)容和DBPedia擴展內(nèi)容的組合呈現(xiàn)，整個處理流程的關(guān)鍵偽代碼如下：圖6 IIP關(guān)聯(lián)檢索功能示意圖

IF（IntegratedResources.getOp（）.equals（″detail″）==true）進入綜合資源詳細內(nèi)容獲取流程

創(chuàng)建IntegratedResourcesForm實體；

利用returnIntegratedResources方法獲取本地內(nèi)容，ResourcesDisplayLbean.returnIntegratedResources（irId）；

利用returnDBPediaResources方法獲取DBPedia數(shù)據(jù)集中的相關(guān)內(nèi)容，ResourcesDisplayLbean.returnIntegratedResources（searchWord）；

在returnDBPediaResources方法中，String lookupDBpedia=″http：∥lookup.dbpedia.org/api/search.asmx/PrefixSearch？QueryClass=&MaxHits=5&QueryString=″+searchWord；利用HttpClient調(diào)研l(wèi)ookup服務(wù)接口，返回結(jié)果經(jīng)過本地二次處理，以字符串形式返回；

整理合并本地內(nèi)容和DBPedia相關(guān)內(nèi)容，分別寫入之前創(chuàng)建的IntegratedResourcesForm實體，

IntegratedResourcesForm.setContent（integratedResource）；

IntegratedResourcesForm.setDBPedia（dbpediaResult）；

完成內(nèi)容獲取整個流程后，將IntegratedResourcesForm寫入request

req.setAttribute（″IntegratedResourcesForm″，IntegratedResourcesForm）；在頁面上呈現(xiàn)。

3.2.2 實現(xiàn)效果

IIP關(guān)聯(lián)數(shù)據(jù)搜索實現(xiàn)效果之一是通過輸入檢索詞直接在DBPedia數(shù)據(jù)集中檢索相關(guān)內(nèi)容并返回檢索結(jié)果列表，以condensed為例，通過DBPedia檢索返回的結(jié)果包括Hydrochloric acid；Condensed matter physics；Condensation等。點擊Condensed matter physics直接跳轉(zhuǎn)到DBPedia中的“凝聚體物理”詞條展示頁面，具體效果如圖7所示。圖7 關(guān)聯(lián)檢索實現(xiàn)效果之一

IIP關(guān)聯(lián)數(shù)據(jù)搜索實現(xiàn)效果之二是以利用綜合資源組件構(gòu)建的藥品數(shù)據(jù)庫為基礎(chǔ)，在瀏覽藥品詳細信息的時候，在界面呈現(xiàn)本地藥品數(shù)據(jù)庫中加工形成的數(shù)據(jù)資源以及通過DBPedia檢索返回的擴展資源信息。例如在藥品數(shù)據(jù)庫資源列表頁面點擊Abacavir，進入該藥品詳細信息頁面，在此頁面中上方為本地藥品庫中的信息內(nèi)容，下方為從DBPedia數(shù)據(jù)集擴展獲取的信息內(nèi)容，具體實現(xiàn)效果如圖8所示。

4 結(jié) 論

中國科學(xué)院集成信息平臺（CASIIP）雖然在中科院范圍內(nèi)62家研究所的幾百個課題組得到了廣泛應(yīng)用，但是CASIIP平臺還是以傳統(tǒng)的門戶呈現(xiàn)模式和關(guān)系型數(shù)據(jù)庫存儲模式進行的信息組織，語義化程度較低。本文的研究思路是在CASIIP平臺中引入了關(guān)聯(lián)數(shù)據(jù)的概念，利用外部關(guān)聯(lián)數(shù)據(jù)集DBPedia豐富的信息資源描述，結(jié)構(gòu)化的組織形式以及規(guī)范的數(shù)據(jù)接口實現(xiàn)了平臺語義化擴展。通過平臺語義化擴展，將平臺自身的信息資源與來自DBPedia數(shù)據(jù)源的同一個實體數(shù)據(jù)進行整合，以統(tǒng)一視圖的形式返回給用戶盡可能多的相關(guān)信息。

目前在CASIIP平臺中只引入了DBPedia一個關(guān)聯(lián)數(shù)據(jù)集，接下來，根據(jù)不同研究所的研究領(lǐng)域不同，將開展有針對性的關(guān)聯(lián)數(shù)據(jù)集調(diào)研并引入CASIIP系統(tǒng)中。與此同時，將開展CASIIP系統(tǒng)自身信息的語義化轉(zhuǎn)換，利用關(guān)聯(lián)數(shù)據(jù)發(fā)布技術(shù)，將系統(tǒng)數(shù)據(jù)發(fā)布為標準的關(guān)聯(lián)數(shù)據(jù)格式對外提供服務(wù)。

參考文獻

[1]劉煒.關(guān)聯(lián)數(shù)據(jù)：概念、技術(shù)及應(yīng)用展望[J].大學(xué)圖書館學(xué)報，2011，（2）：5-12.

[2]The Linking Open Data Cloud diagram[EB/OL].http：∥lod-cloud.net/.

[3]DataHub Dataset[EB/OL].https：∥datahub.io/dataset.

[4]CKAN Overview[EB/OL].http：∥docs.ckan.org/en/ckan-2.4.1/index.html.

[5]DBPedia[EB/OL].http：∥wiki.dbpedia.org/.

[6]邢美鳳.DBPedia本體知識庫關(guān)鍵技術(shù)及應(yīng)用展望[J].圖書館理論與實踐，2013，（1）：43-46.

[7]DBPedia Lookup[EB/OL].http：∥wiki.dbpedia.org/projects/dbpedia-lookup.

[8]Pablo，N.Mendes；Max，Jakob；Andres Garcia-Silva；Christian Bizer.Bpedia Spotlight：Shedding Light on the Web of Documents[J/OL].I-SEMANTICS 2011，7th Int.Conf.on Semantic Systems，2011.http：∥blog.semantic-web.at/wp-content/uploads/2011/09/p1mendes.pdf.

[9]DBLP computer science bibliography[EB/OL].http：∥dblp.uni-trier.de/.

[10]CORDIS European Union Open Data Portal[EB/OL].https：∥open-data.europa.eu/en/data.

現(xiàn)代情報2016年6期

現(xiàn)代情報的其它文章: 移動通信技術(shù)驅(qū)動的旅游增值信息服務(wù)融合模式研究; 從信息驅(qū)動到服務(wù)導(dǎo)向：國內(nèi)外信息服務(wù)業(yè)研究視角演化述評; 微信研究回顧與展望; 日本數(shù)據(jù)隱私法律：概況、內(nèi)容及啟示; 互聯(lián)網(wǎng)+環(huán)境下檔案工作服務(wù)模式探索; 2000年以來我國多語言語料庫研究進展