999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關聯數據的圖書館信息挖掘與揭示

2016-11-28 02:15:15劉愛琴王慧滿
圖書館 2016年9期
關鍵詞:關聯可視化圖書館

劉愛琴 王慧滿 尚 珊

(山西大學經濟與管理學院 太原 030006)

·工作研究·

基于關聯數據的圖書館信息挖掘與揭示

劉愛琴 王慧滿 尚 珊

(山西大學經濟與管理學院 太原 030006)

關聯數據是將超文本鏈接轉變為超數據鏈接,其實質是以RDF形式提供有用的信息,盡可能提供鏈接指向其它URI,使人們發現更多的相關知識。關聯數據具備的統一、標準、定位精確的特點為圖書館信息挖掘提供了又一新的途徑。文章從關聯數據技術在圖書館信息挖掘與揭示中的影響機制分析入手,探討了關聯數據技術構建信息挖掘的優勢,通過對文獻標題、作者、關鍵詞等內容的提取,利用關聯數據自身攜帶的大量URI鏈接將相關領域的研究信息及數據集進行關聯的實際應用來展示其可行性,有效地解決了現有匹配方法中信息關聯范圍小、準確率低、噪音多等問題,為信息挖掘與揭示提供了新的思路與方法,并對該方法的后續研究提供了新的研究范疇。

關聯數據 信息挖掘 URI鏈接 信息匹配 信息揭示影響機制

1 問題提出

傳統的圖書館信息挖掘是系統按照相似度匹配算法匹配關鍵詞,計算文獻信息的相關度并排列順序的方式向用戶推送。系統僅憑文字匹配來提供信息,無法理解用戶的真正檢索需求,造成檢索結果中存在大量的噪音信息。此外,絕大多數圖書館的信息資源沒有和網絡直接連接,用戶搜索到的文獻信息僅限于該圖書館的數字電子式資源和書本式資源,信息獲取范圍小、獲取量少。因此,如何在提高檢索效率的同時為用戶提供一個人性化的檢索環境,成為當前圖書館信息挖掘工作的研究熱點。上世紀9O年代,信息可視化技術首次被引入數字圖書館的領域中,該項技術對信息表達的抽象程度高、規律性特征挖掘清楚、展現能力強,學者們都嘗試將可視化思想服務于實際檢索[1]。

盡管圖形的表現形式極大地方便了用戶理解檢索信息內容的關聯,但是檢索出的信息量并沒有得到實質性的提高。而隨著關聯數據概念的提出,人們意識到這種方法不僅可以有效地對信息進行整合,而且攜帶的大量URI鏈接可以關聯到更多的信息,因此越來越多的機構、政府部門開始重視關聯數據的應用。2008年瑞典國家圖書館將瑞典聯合目錄整體發布為關聯數據,首次將關聯數據應用到圖書館領域,隨后,美國國會圖書館、大英圖書館等多個國家的圖書館相繼將自身數據信息發布為關聯數據集[2]。我國學者在這方面的研究剛剛起步,目前僅有極個別圖書館將信息發布為關聯數據,但是關聯數據勢必將對信息挖掘的發展提供強大的推動力。

本文將關聯數據引入到圖書館信息挖掘過程中,利用關聯數據的統一、標準、定位精確等特征不僅實現了信息資源的聚合、知識的關聯,而且利用關聯數據自身攜帶的大量URI鏈接可以關聯到更多數據集的信息,有效地擴大信息挖掘的信息量、信息范圍和深度。

2 關聯數據與信息可視化比較

信息可視化是通過用戶對圖片處理的較強能力,將文本信息通過一定的方式轉化成圖形后,通過距離、長短、大小、顏色等方式來表達不同信息,方便用戶快速找到相關文獻,并能使用戶清楚地看到檢索出的文獻之間的相關性[3]。

然而,由于圖書館、外部網絡等機構提供的信息沒有統一的格式,可視化技術的使用需要先將其挖掘出的信息統一轉換格式解決異構問題,再把轉化好的信息用挖掘算法將信息的揭示過程及結果向用戶展示出來,過程較為復雜,挖掘效果不能滿足需求。此外,圖書館存儲的信息量巨大,可視化技術在應用過程中不能保證對大量數據高速并精準的處理,現有的幾類可視化技術在處理多維度信息后,向用戶展示時不可避免地出現交叉、重疊、順序混亂等問題。與之相比,關聯數據這一新興技術能夠有針對性地解決以上問題。關聯數據的中心思想是將雜亂無章的信息(將作者信息、科學理論信息、組織機構信息、研究成果等一系列相關信息關聯起來)通過RDF統一標識,形成數量巨大的信息數據集,并且通過RDF中的大量URI鏈接而將信息數據集群之間也相互關聯,用戶通過SPARQL語言或者利用關聯數據專用瀏覽器等方式來對關聯數據信息進行檢索。Tim Berners-Lee提出關聯數據后,世界范圍內的學者對這項新技術的關注度越來越高,并且不斷嘗試將大量的信息發布成關聯數據。信息可視化技術和關聯數據技術在信息挖掘及揭示應用中的比較,詳見表1。

表1 信息可視化和關聯數據技術在信息挖掘及揭示應用中的比較

表1為信息可視化和關聯數據在信息挖掘及揭示應用中的比較,可以看出關聯數據在信息挖掘過程中可以做到范圍更廣、程度更深。信息可視化技術在處理信息時主要有以下四個步驟:首先將檢索出的信息導入到系統中并進行格式轉換,信息轉換沒有確定的格式,只要利于可視化的表達都可以作為目標格式,其次對信息進行分析和處理,然后存儲處理好的信息,最后將信息可視化處理[4]。關聯數據在信息處理過程方面也需要對數據格式進行轉化,但其嚴格要求將異構信息轉化成RDF格式,通過RDF可以將相關信息連接起來,速度快,定位準,能夠克服信息可視化在處理巨量信息時效率低的不足。在處理信息方面,可視化技術只是將文獻與文獻之間的關系等信息直觀地表現出來,而關聯數據關聯的信息量更多、范圍更廣、程度更深。如表1所示,關聯數據可以通過對作者及所著文獻賦予鏈接相連,解析文獻名后提取主題詞與其他擁有共同主題詞的文獻相關聯,再進一步與其作者、出版社、研究團隊等信息形成鏈接;除了對作者及文獻名主題詞構建關聯外,關聯數據還可以對文獻的關鍵詞以及標題構建RDF鏈接而與其他相似文獻關聯,這樣就可以檢索到某一主題的所有相關文獻。另外,關聯數據通過大量RDF鏈接不僅可以將圖書館內信息進行關聯,還可以與圖書館外的信息資源進行鏈接,拓展信息挖掘范圍,提高用戶的使用效率。

3 關聯數據在圖書館信息挖掘及揭示中的影響機制

關聯數據是以RDF格式對圖書館信息進行存儲并發布,這有利于圖書館對自有信息及與其他信息機構的信息進行關聯。并且,通過RDF三元組可以精準的描述任何一個在互聯網上發布的信息[5]。RDF三元組中的主語和賓語用知識對象URI標識,謂語則用語義詞匯集URI標識,這樣就可以將一篇文章標題及其作者、關鍵詞、出版社等信息準確地呈現出來,也可以通過詞匯集的鏈接來構建內外部信息的匹配。大量URI鏈接的存在使得關聯數據在信息挖掘方面發揮著重要作用。圖1為關聯數據在整個圖書館信息組織過程中的應用,第一部分為資源融合,分為自有資源異構融合以及范資源融合兩個層次,第二部分為關聯數據的應用。

圖1 基于關聯數據的圖書館信息挖掘及揭示影響機制

3.1 資源融合

圖書館是信息資源的聚集地,是眾多知識機構當中擁有書目文獻相關信息、電子資源、光盤映像等信息最多的機構之一。圖書館自有資源異構指的是各種信息資源都有其獨自的編碼方式(MARC、DC等),使得信息之間不能自由關聯,呈現出的檢索結果也很有限。館際信息由于使用不同封閉的系統及各自采取的編碼方式,使館際信息之間相互的關聯更少。而關聯數據能夠用統一的RDF格式對各類信息進行描述,計算機可以輕松識別并理解信息的屬性、邏輯結構等,并且利用RDF/XML將信息元數據描述成統一的格式,使得館藏各種文獻、影音資料、作者信息等一系列無規則的信息資源統一轉化為由RDF格式進行描述的結構化的信息資源,加強了信息間的語義關聯。

“范資源”指的是與本圖書館不同的信息組織機構(例如其他圖書館、出版社以及網絡信息諸如百度百科、維基百科等)所含資源,范資源融合指的是將不同信息機構的資源進行融合。關聯數據采取統一、方便的RDF格式,將各個信息機構所含資源進行標識,發布并進行關聯以供其他組織或用戶使用,在擴大與外界信息交互的同時又豐富了圖書館自身的信息。由于RDF的編寫并沒有限制開發者用哪一種詞匯表,館員可以利用自己的詞匯表進行語義轉化,提升圖書館等機構的信息組織效率。

3.2 關聯數據的應用

關聯數據的核心就是將異構信息通過統一表述形式后向外界公布以被應用,根據Tim Berners-Lee提出的關聯數據四大發布原則,創建并發布了關聯數據之后就要構建關聯關系,通過對已發布的RDF數據進行主體映射、提取、合并等處理后,形成關聯數據云。如果能夠授權,將這些數據對外無限制開放,可以形成供任何人使用的開放的關聯數據,即Linked Open Data (LOD)。

3.3 關聯數據在圖書館信息挖掘及揭示中的實現方式

基于關聯數據的圖書館信息挖掘與揭示的算法流程,如圖2所示,分三個階段:本體構建與檢驗、信息處理及關聯數據化、信息挖掘與揭示。

圖2 基于關聯數據的圖書館信息挖掘與揭示算法流程

現有的關聯數據本體的構建技術以及復用技術已經比較成熟。首先構建本體庫,采用國際普遍使用元數據標準Dublin Core及其他標準來構建所需本體或者復用現有本體。如果圖書館自建本體,需要按照一定方式例如按照種類及粒度大小將圖書館信息進行分類。歐石燕[6]在構建關聯數據元數據本體時使用的是英文本體,主要研究的是圖書館中書目數據部分。本文在其基礎上提出更廣泛的分類方法,采用Protege4.3本體構建工具,支持中文顯示,今后國內應用將會更為廣泛。本文將信息本體大類分為人、地址、文件、時間、組織等,再對部分類添加子類,例如將書目數據作為子類添加到“文件”下,對“組織”部分添加公司、學校、出版社、機構等子類,如圖3所示。通過構建以上本體,不僅書目數據,其他信息如文獻作者以及其所著的文獻信息、關鍵詞、出版方、日期、從屬、研究領域及與其相關的其他研究人員的基本信息都可以一并描述。如果復用本體,則可以根據描述信息的種類復用不同已有本體,例如GeoNames、EVENT等,并且要在各本體之間通過“屬性”來進行語義關聯。建立好本體后通過對本體匹配度進行檢驗,將構建好的本體保存至本體庫。

圖3 基于關聯數據的圖書館信息挖掘與揭示本體構建示例

圖書館在對信息進行處理時,可以利用Altova或RDF Refine等軟件將CSV、JPEG、MARC等格式數據轉化為RDF格式存入基礎數據庫內。將轉化格式后的數據根據種類用相對應的本體進行描述,例如基于FOAF、GeoNames等本體描述人、組織、地名等信息并形成相應的數據集。對于文獻類型的數據,可以將文獻標題、摘要、關鍵詞等內容分別構建RDF鏈接,然后將RDF格式表示的信息數據類型屬性的屬性值用URI表示的資源代替,從而實現關聯數據的構建,發布后形成關聯數據云。信息挖掘階段,用戶通過SPARQL查詢語句對所需信息進行檢索,系統接收到檢索指令后對查詢語句進行分析,并作規范化處理后進行檢索。計算機通過RDF中的URI標識對信息進行精準定位,提取檢索語句中的關鍵詞信息后進入RDF匹配系統與關聯數據云進行首次匹配。將匹配結果輸入至信息篩選過濾系統剔除噪音信息,如果匹配率低于系統預設閾值則返回RDF匹配系統重新與關聯數據云匹配,反之將檢索結果按相似匹配度排序后向用戶展示,用戶通過與計算機交互機制對檢索的初步結果進行判定,不滿意則重新進行檢索;滿意則輸出最終結果,檢索過程完成。

相對于人大復印資料、知網等單一形式數據庫通過關聯后的數據可以一次查詢得到期刊、圖書等文獻的作者信息、與作者相關的研究機構信息以及通過關聯關鍵詞而推送出的相關論文等信息,并且可以通過鏈接跳轉到維基百科等網站瀏覽更多內容。

4 關聯數據面臨的問題及展望

隨著語義網的不斷發展,關聯數據必將逐漸成為各信息組織機構發布數據時最受青睞的方式之一,關聯數據的提出與應用將極大地促進各類信息的融合,為用戶提供更好的服務。但是,由于其數據源開放、鏈接數量龐大等特點,關聯數據在圖書館信息挖掘的實際應用中產生如下問題。

4.1 本體匹配的優劣性

本體作為關聯數據解決資源異構問題的主要方法,越來越多的學者開始對應用更廣泛、匹配度更高的本體構建展開研究,而其中很大一部分是將本體進行語義化描述,需要從更深層次的語義關聯進行探索。此外,建立關聯數據的本體與建立普通本體相比更難,較為復雜,如何為普通圖書館員及相關工作人員構建一個平臺,使得本體的自主構建以及與其他已有本體之間的語義關聯的操作變得簡單是下一步研究的重點。第三,如何選擇匹配方法充分發揮關聯數據在信息挖掘中的作用也是今后相關研究的發展思路。

4.2 產權所有及資源開放的權衡

圖書館等信息機構通過自建數據庫或者購買數據庫來向自己的特定用戶提供信息挖掘等服務,而將這些信息通過關聯數據發布后,相關知識機構在減少收入的同時,亦會對其信息安全造成一定的威脅;另外,大量不可控鏈接的存在可能會使圖書館面臨侵權等法律問題。因此,產權所有和資源開放程度二者如何權衡是使用關聯數據的知識機構必須考量的。

4.3 鏈接的維護與更新

越來越多的信息被發布為關聯數據,不可避免會出現一詞多鏈的現象。同時,信息不斷更新、替代使原有內涵不斷被豐富,會造成該信息所包含的鏈接不能再對其進行描述,基于此關聯的應用程序運行也可能出現問題。這就需要關聯數據的發布者經常對數據鏈接進行維護,對重復的鏈接要做到盡可能刪除,對易產生變化的信息加大追蹤力度,及時更新,對消失的鏈接及時增添。

4.4 關聯程度的進一步深化

文獻內容的關聯的難點在于過程較為繁瑣、信息量巨大。一種相對可行的方法是將某篇文獻的每一個句子都進行語句分析提取關鍵詞并賦予鏈接,使文獻與文獻之間的關聯不僅僅局限于標題、作者或者關鍵詞,從而進一步擴大關聯范圍。這種做法會加大相關人員的編寫工作力度,另外也會產生大量RDF鏈接,占用網絡資源及存儲空間。因此,如何構建一種高效的關聯方法是下一步研究的重點。

(來稿時間:2016年4月)

1.謝慶華, 張寧蓉, 宋以勝, 等.聚類數據挖掘可視化模型方法與技術[J].解放軍理工大學學報(自然科學版),2015 (1):7-15

2.劉煒.關聯數據:概念、技術及應用展望[J].大學圖書館學報,2011(2):5-12

3.馮靜.我國信息可視化檢索研究[J].邊疆經濟與文化,2012(7):154-155

4.孫潔麗,朱智清.基于數據挖掘技術的檢索可視化系統的研究[J].現代情報,2008(3):106-109

5.夏翠娟,劉煒,趙亮,等.關聯數據發布技術及其實現——以Drupal為例[J].中國圖書館學報,2012(1):49-57

6.歐石燕.面向關聯數據的語義數字圖書館資源描述與組織框架設計與實現[J].中國圖書館學報,2012(6):58-71

The Information Mining and Revelation of Library Based on the Linked Data

Liu Aiqin Wang Huiman Shang Shan
( School of Economics and Management, Shanxi University)

Linked data transforms hypertext links to hyperdata links which essence is to provide useful information in the form of RDF and links that point to other URI to enable people to find more relevant knowledge.The unified, standard and accurate positioning of the linked data provide a new way for library information mining.This paper starts with the analysis of the influence mechanism of the linked data technology in the information mining and revealing of the library, then discusses the advantages of information mining based on linked data technology, next, through extracting the contents of the document title, author, keywords, etc.and using lots of URI links carried by linked data to make a relation between the related fields of research information and data set to show its feasibility which effectively solves the problems of low correlation range, low accuracy and high noise etc.in the existing matching method, and proposes a new way of thought and method for information mining and revealing, and finally provides a new research category for the following research of this method.

Linked data Information mining URI Information matching Influence mechanism of information revealing

G250

格式〕 劉愛琴,王慧滿,尚珊.基于關聯數據的圖書館信息挖掘與揭示[J].圖書館,2016(9):95-99

劉愛琴(1974-),女,博士,山西大學經濟與管理學院碩士生導師,研究方向:信息資源;王慧滿(1993-),男,山西大學經濟與管理學院管理科學與工程研究生;尚珊(1962-),女,山西大學經濟與管理學院教授,研究方向:信息資源。

猜你喜歡
關聯可視化圖書館
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
飛躍圖書館
圖書館里的是是非非
主站蜘蛛池模板: 亚洲综合色吧| 婷婷综合色| 日韩欧美在线观看| 香港一级毛片免费看| 无码 在线 在线| 国产视频久久久久| 黄色一及毛片| 午夜久久影院| 国产亚洲精品自在久久不卡| 97se亚洲综合在线天天| 精品无码国产自产野外拍在线| 久草热视频在线| 精品一區二區久久久久久久網站 | 在线视频一区二区三区不卡| 一级成人a做片免费| 国产成人做受免费视频| 欧美色综合网站| 伊大人香蕉久久网欧美| 99re在线观看视频| 亚洲第一在线播放| 狠狠色丁香婷婷| 天天做天天爱夜夜爽毛片毛片| 囯产av无码片毛片一级| 久久精品人人做人人爽| 伊人精品视频免费在线| 欧美日韩成人在线观看| 国产丝袜第一页| 美臀人妻中出中文字幕在线| 91免费观看视频| 2021精品国产自在现线看| 91人妻日韩人妻无码专区精品| 亚洲精品老司机| 91精品国产丝袜| 婷婷在线网站| 在线观看91香蕉国产免费| 天天色天天综合网| 欧美一级黄片一区2区| 手机在线免费不卡一区二| 国产精品尤物在线| 免费国产不卡午夜福在线观看| 老司机aⅴ在线精品导航| 香蕉国产精品视频| 第一页亚洲| 91亚洲精品国产自在现线| 人妻丰满熟妇av五码区| 亚洲二三区| 免费国产好深啊好涨好硬视频| 四虎在线观看视频高清无码| 色噜噜中文网| 亚洲美女高潮久久久久久久| 国产91视频观看| 久久青草精品一区二区三区| 91视频日本| 国产永久无码观看在线| 在线亚洲精品自拍| 亚洲天堂成人在线观看| 99激情网| 国产自在线播放| 久久精品国产91久久综合麻豆自制 | 亚洲综合天堂网| 丁香五月婷婷激情基地| 日韩久草视频| 麻豆精品在线| 日本一本正道综合久久dvd| 一级毛片免费播放视频| 中文字幕66页| 亚洲精品第一页不卡| 色婷婷成人| 国产一级在线播放| 一区二区三区四区在线| 亚洲日本中文字幕天堂网| 成人午夜免费视频| 91亚洲国产视频| 五月婷婷亚洲综合| 一本久道热中字伊人| 国产香蕉在线视频| 国产高清不卡视频| 免费国产在线精品一区| 国产黑丝一区| 日本妇乱子伦视频| 国内精品久久久久久久久久影视 | 日韩av在线直播|