基于關聯數據的新一代機構知識庫知識發現系統研究

2020-12-14 11:10:08王偉

圖書館學刊 2020年11期

王偉

（東北財經大學圖書館，遼寧大連 116025）

1 引言

在開放獲取的推動下，全球機構知識庫（Institutional Repository，簡稱IR）的建設發展迅猛。截至2020年8月，在全球機構知識庫注冊網站（The Directory of Open Access Repositories，OpenDOAR）注冊的機構知識庫數量已從2005年的79個增長到5395個[1]。但在學術交流環境中，商業數據庫和商業出版依然是學術交流的主渠道。隨著大數據、云計算、人工智能等新技術的廣泛應用，如何應用新技術使機構知識庫在新學術交流生態環境下發揮積極作用，成為機構知識庫研究的發展趨勢。

2016年4月，開放獲取知識庫聯盟（The Confederation of Open Access Repositories，簡稱COAR）啟動了一個研究項目，即“下一代機構知識庫”（Next Generation Repositories），并成立了新一代知識庫工作組，調研用戶需求，提出新功能和技術方案[2]。在COAR的引領下，對新一代機構知識庫的功能、技術和發展的研究與應用，逐漸成為IR領域的研究熱點。目前，通過對機構知識庫內部和各機構知識庫間的資源進行有效關聯是新一代機構知識庫實現個性化、知識化服務的重要手段。此種形勢下，將關聯數據技術應用到機構知識庫領域，深入挖掘機構知識庫的內在知識價值，探索機構知識庫資源聚合與知識發現服務的新業態，對新一代機構知識庫的建設與發展具有重要意義。

2 新一代機構知識庫基本架構及功能

新一代機構知識庫的核心是將機構知識庫作為一種分布式的、全球網絡基礎設施的學術交流平臺，其總體框架的最上一層可部署知識增值服務，由此將系統提升為能面向研究、開放并有助于創新，同時便于學術群體集體管理的平臺[3]。在大數據和云計算等理論發展趨勢下，機構知識庫逐漸從單一機構的知識典藏向全球學術交流生態系統轉型。新一代機構知識庫不同于傳統的機構知識庫，其存儲的目的不是為了收藏，而是為了通過服務增加價值，包括學術評價、同行評審和學術社交等，使得資源能夠發揮更大的效用。同時，更加注重合作，不斷增強機構知識庫之間的關聯度和協作能力。

2.1 新一代機構知識庫基本架構

新一代機構知識庫中，通過集成云計算、大數據等全新技術，為機構知識庫的開發提供更多的服務支持。新一代機構知識庫的系統架構和具體功能見圖1所示。

圖1 新一代機構知識庫的系統架構及功能

新一代機構知識庫的底層數據來源更加廣泛，包括WOS、SCOPUS、EI、Pubmed、學位論文庫以及機構文庫。數據類型更加豐富，包括期刊論文、會議論文、學位論文、專著、專利、演示文稿等。在內部功能上，依托完善的數據處理流程，可實現學術成果自動更新，消除學者姓名和機構名稱等拼寫歧義，進行機構甄別和學者甄別。同時，可以全面準確地追蹤學者或機構的學術產出，進行學術評價和同行評審，促進科研合作、知識傳播和共享。在外部功能上，通過標準數據接口，整合多方服務，可對接機構的人事管理系統、科研管理系統和教學管理系統，從而使新一代機構知識庫更好地支持機構教學、科研以及管理等活動。在服務功能上，構建面向復合與數據對象管理、內容自動更新和機構影響力評估等服務。

2.2 新一代機構知識庫功能服務

（1）數據及復合對象管理服務。隨著學術產出的內容、形式不斷地演化豐富，越來越多其他形式的學術產出從科研背后走向前臺。這包括科學數據、圖像、視音頻、軟件和工作流等。對于結構化的單一內容對象類型，組織起來比較容易，而對于復合對象需采取關聯組織模式，因此，該功能提供了新一代機構知識庫作為數據登記和發現系統的服務。

（2）內容的自動更新服務。這項功能服務的實現有3種模式。第一種模式，支持出版商自動推送OA內容到機構知識庫，同時，出版商也支持作者選擇存繳。發表文章的作者可將成果的接受稿/最終稿自動推送至所屬機構的機構知識庫中。這種模式要求IR平臺應支持SWORD協議，出版平臺也支持SWORD協議。第二種模式，機構知識庫通過出版商的API（應用程序編程接口）服務來主動采集授權內容。從出版商獲取的數據主要是以元數據格式為主。在訪問權限上，OA論文可以直接訪問全文。授權用戶直接訪問最終發表版全文。非授權用戶可預覽論文全文的首頁等。目前，越來越多的出版商提供API（應用程序編程接口）服務，比如，Elsevier、Springer、PubMed、IEEE等。第三種模式，建立論文交換和分發中心解決出版商與機構知識庫之間多對多推送關系。機構知識庫接受出版商數據的推送，出版商可以按照論文作者機構，將論文推送到各個機構知識庫中。

（3）影響力管理服務。機構知識庫建設的一個重要目標和作用就是展示和提升科研人員及所在機構的影響力?？蒲泻蛯W術交流評價趨向多元化和綜合性。傳統的學術影響力計量主要是指同行間的學術引用。日趨流行的綜合影響力要素除了引用還有使用下載以及社會公眾的評價等方面。新一代機構知識庫將集成基于引用的計量，科研成果的引用頻次、來源出版物的影響因子、科研人員的H指數，同時，還集成社群/社會影響力等指標。

3 新一代機構知識庫相關技術實現

關聯數據（Linked Data）這一概念最早是由Web的發明人蒂姆伯納斯·李（Tim Berners-Lee）于2006年首次提出，目前成為被W3C推薦的一種用來發布和鏈接各類數據、信息和知識的規范。其采用資源描述框架RDF（Resource description framework）數據模型，利用統一資源標識符URI（Uniform Resource Identifier）命名數據實體，來發布和部署實例數據和類數據，從而可以通過HTTP協議揭示并獲取這些數據，同時它強調數據的相互關聯、相互聯系和有益于人機理解的語境信息[4]。機構知識庫中的各類型資源實體首先經過詞表的復用與擴展，形成RDF形式的語義化元數據，實現元數據的語義化互操作。然后，采用本體化的元數據模型，對資源進行語義化描述，再借助語義化的本體將RDF鏈接顯性的揭示出來[5]。

3.1 關聯數據中的關鍵技術

（1）將機構知識庫中的資源實體描述得規范化。為滿足用戶快速、準確地找到所需學術資源，新一代機構知識庫將提供語義化的訪問服務。這就需要對資源實體進行規范化描述，而不是HTML格式的簡單描述。新一代機構知識庫是圍繞研究主題或學科領域來進行知識組織的，每個研究主題或學科領域又可分為多個專題。專題可以根據文獻類型或其他的索引方法來進行組織。每個專題的內容包含著期刊論文、會議論文、學位論文、專著、專利、演示文稿等多種類型數據集。

（2）將機構知識庫中資源實體擴展到已有關聯詞表。關聯數據的基本原則之一就是盡可能提供相關的統一資源標識符URI，以使用戶發現更多的資源。在數字圖書館領域，資源一般最常用的就是RDF schema和OWL提供的結構描述，如DC、PROV-O、SKOS、VOAF、FRBR等語義關聯描述模型，它們均已經實現了全面的關聯數據化。新一代機構知識庫可以利用標準的關聯數據組織模式，對系統內的知識組織體系進行規范。因此，可使用已有的類以及屬性選擇最合適的關聯詞表，如分類表、主題詞表等，明確的表示實體之間的映射關系，使機構知識庫在關聯詞表的幫助下支持SPARQL模式的語義查詢[6]。

（3）將機構知識庫中的實體進行語義化。關聯數據可以為機構知識庫實體資源語義化提供基礎?？衫脤嶓w對象之間的關系對機構知識庫中的資源實體對象資源的核心概念進行確定，進一步對它們進行描述。這些核心概念包括相關概念、從屬概念、交叉概念等。首先要構建機構知識庫資源領域本體，其次抽取概念間的關系，擴展類的屬性，在本體之間形成語義關聯。同時，關聯數據允許機構知識庫關聯到更廣泛的信息資源，并不局限于資源實體本身的信息。它可以擴充科研人員、所屬機構、科研成果以及其所屬學科主題等其他信息，到其他任何一個存在該信息描述的數據源，并提供多個分布式異構數據源整合的關聯訪問，從而為用戶提供整合的資源發現服務[7]。

3.2 關聯數據能解決的關鍵問題

（1）機構知識庫實體對象的識別和實體關系的抽取。機構知識庫中的實體對象很多，關系也很復雜。對同一實體對象和關系的識別和抽取是一個關鍵問題。不同的關聯數據源對同一個實體，如人名、地名等采用了不同的URI來標識[8]，會導致他們所標示對象的標簽和實質的內容并不是完全匹配的。為了解決這一個問題，可設計一個知識資產作者及作者排序確認程序，目的是借助人工的甄別，去實現作者和其成果的一一對應關系。該程序會在作者向機構知識庫所提交的條目內容被接受和保存，并分配唯一的URI標示符后，自動向作者發送認領郵件，由作者本人來確認是否是自己的作品以及選擇作者的排序。這種做法雖然效率可能會比較低，認領周期會有點長，但是對于目前的研究層次而言，是十分有效的，而且很大程度地提高了實體對象識別的準確率。與此同時，機構知識庫還可增加別名管理程序，為同一個人名實體添加多個形式的別名，解決人名實體多樣化的識別問題。有了這些前期的預處理工作，抽取機構知識庫中自身的實體對象和關系可以按照機構知識庫的元數據描述字段以及關系類型進行解析和拆分。

（2）機構知識庫關聯數據源的選擇和不同詞表間的映射。機構知識庫中的數據主要是期刊論文、會議論文、學位論文、教材、專著、專利、演示報告等資源，要將機構知識庫中的元數據擴展到外部的關聯數據源，選擇合適的關聯數據源十分重要。目前互聯網上的關聯數據源有很多，但基本都是綜合性的社會公共性質的數據集。而不同的關聯數據來源可能采用不同的關聯詞表，為了最大化、最有效地語義化機構知識庫中的元數據，從而為用戶提供整合的清晰的數據視圖，需要將不同的術語轉換成統一的目標模式。轉換工作主要依據詞表將數據映射成本地的數據模式，另外，還需要依據人工產生或者經過數據挖掘得到的映射規則進行轉換[9]。