盧艷蘭
(河池學院圖書館,廣西 宜州 5463006)
數字圖書館細粒度知識體系標準研究*
盧艷蘭
(河池學院圖書館,廣西 宜州 5463006)
[摘要]數字圖書館知識體系已經從傳統知識體系中脫離出來,進化為當今的立體空間網狀結構。空間中每個知識節點關聯一系列其他知識和信息。知識體系空間的節點細分程度越高,越是能夠滿足用戶多角度、全方位的知識需求。因此,研究數字圖書館細粒度知識體系,有助于構建數字圖書館知識體系的發展標準。從當前數字圖書館知識體系分類研究入手,引入細粒度知識體系的概念;以細粒度知識體系的原理和重要性,構建數字圖書館細粒度知識體系標準,并實現打通館際知識體系融合的目標。
[關鍵詞]數字圖書館細粒度知識體系知識體系標準館際知識體系融合
當今國際科技發展與創新必不可少的支撐條件是信息服務質量和知識服務環境,應運而生的數字圖書館知識組織系統滿足了這一要求,成為知識信息集成的平臺,也是國家科技創新的基礎保障和關鍵組成部分。因此,提升信息時代數字圖書館知識組織質量和服務能力成為孕育國家創新產出的搖籃。數字圖書館知識組織以用戶需求為導向,建立更為細致的知識供給模式,使不同領域的不同需求者高效實現知識滿足,是數字圖書館知識組織模式研究的趨勢和方向。傳統的文獻、信息轉變為信息時代的知識,概念化和知識化的組織趨勢引導學者不斷構建海量大數據下的知識系統。知識間的關系從傳統“標題詞表”的并列關系,發展到“知識樹”式的“等級”關系,再到今天數字圖書館條件下的知識組織的“關聯”關系,技術條件下的知識組織認知已經獲得了極大的進化,并使數字圖書館知識組織在大數據技術條件下,發展成為立體的空間網狀結構。當數字圖書館知識組織工作的本體化研究成為熱點時,知識服務體系越是需要足夠的細粒度劃分,以進一步拓展數字圖書館知識組織的廣度和深度。
1.1泛在知識環境下數字圖書館知識體系的研究
“泛在知識環境”是一個新概念,是2003年美國國家科學基金會在研討關于未來數字圖書館發展方向時提出的一個概念。其意義是以當前迅猛發展的信息科技為依托,將傳統信息服務和專項知識服務提供給用戶時,要建立多語言、多媒體、可移動、語義環境的數字圖書館知識體系,為用戶提供通過網絡滿足其檢索人類知識的需求。因此,美國將構建泛在知識環境作為國家科技工程的重要組成部分。很多學者針對這一數字圖書館發展建設目標,提出了以下數字圖書館知識體系構建的標準:①知識信息跨越時間和空間的限制,無處不在。②知識信息即時性發布和獲得。③學習者可以在任何地方、任何時間獲取知識信息。④形成廣泛的互動關系。⑤讓知識信息成為終生學習的快樂動力。
以當前的研究成果來看,泛在知識環境下的數字圖書館知識體系構建,其核心指向數字圖書館知識的傳播與有效性,對于數字圖書館知識體系深度與廣度的拓展較為缺乏。
1.2數字圖書館細粒度知識體系概念的提出
上述數字圖書館知識體系研究,總體基于用戶傳播與服務而進行,這既是數字圖書館的發展目標也是未來的知識呈現方式。而數字圖書館細粒度知識體系研究,是以知識組織內部本質聯系的概念為基點,明確本體論等多種知識組織體系的方向和技術應用,將數字圖書館知識組織研究面向標簽的網狀結構的知識組織劃分。數字圖書館細粒度知識體系的構建思路是,當用戶行為產生元數據時,網絡層級標簽收集和劃分用戶行為的需求和變化,以此為基礎構建基于用戶興趣的知識組織體系模型。并以此作為數字圖書館知識體系深入揭示用戶標簽之間的內在聯系,實現知識組織的有序性和更為友好的用戶呈現方式。
2.1構建原則與標準
數字圖書館用戶行為具有不可預測性,用戶的知識需求存在著個性化的、跨知識領域的綜合性需求特點。比如,用戶搜索美國動畫片《埃及王子》,會出現影視制作公司、宗教、《圣經》、動畫片、文學作品、歷史等等的系列標簽。這些系列標簽的產生就是通過既往用戶行為產生的數字圖書館網狀知識結構的節點。進一步的標簽選擇中,用戶可能會依據自身需要選擇總體類目以下的任何標簽,其需求的滿足表現為依托于知識本身本質內涵的關聯性。同時,任何標簽的指向是多維度的關聯關系,因此出現了細粒度知識體系構建中的原則和標準:第一,強調知識關聯和知識鏈接通路的構建,實現網狀知識體系的進一步優化和細分。第二,以研究用戶內在行為為基礎,實現知識關聯的本質和內在機理方面獲得突破。第三,明確知識關聯中受控詞表的進化路徑為:標題詞表-敘詞表-本體的細粒度。第四,實現所有數字圖書館用戶都能通過網狀知識結構的細粒度化,滿足需求。
2.2數字圖書館細粒度知識體系的標準化研究
先進信息技術的不斷發展,造就了數字圖書館知識組織借助于網絡和通訊技術,實現了互動交流的手段和服務方式;并進一步實現了數字圖書館開展個性化、深層次知識服務的模式。其技術發展,如全文推送技術、智能檢索、指引庫技術等,將全球作為知識傳播的通訊空間、查詢空間以及信息發布空間組織到同一個網狀結構中。因此,數字圖書館細粒度知識體系的標準化研究必須滿足:數字圖書館知識體系服務的觀念統一、思維統一、方法統一與技術統一。
以當前我國各個高校的數字圖書館為例,很多圖書館由于建設接口的不一致,導致館際合作無法展開;有的圖書館對館藏資料設定了諸多存取條件,限制了數字圖書館的開放性發展等。諸如此類的問題,肇始原因就是因為缺乏數字圖書館細粒度知識體系的統一標準化研究。因此,建立具有全國通用性或者是地方通用性的數字圖書館細粒度知識體系建設標準,有利于打通各類數字圖書館之間的壁壘,真正實現全網知識的互通互聯。
3.1細粒度知識組織體系實現技術概述
當前基于本體的細粒度知識體系在數據處理模式上有流處理模式和批處理模式。
流處理模式是指由于知識數據隨時間發展,數據價值不斷流失;因此快速處理最新數據,使用戶獲得的數據更具價值性,而采取直接處理數據的方式。比如:數字圖書館網頁點擊數量的實時統計,同一標簽搜索頻率的統計等,并對這些數據流進行即時處理。
批處理模式是先存儲后處理。首先是動態存儲過程:先針對用戶原始數據分區,通過不同任務區的處理結果,產生數據集合,參照用戶自定義條件加權獲得中間結果,最后在本地硬盤中記錄結果。其次是靜態處理過程:硬盤數據排序后,對同值數據進行組織,以用戶自定義函數作為排序影響因子,輸出最終處理成果。
3.2數字圖書館細粒度知識體系資源共享空間的實現環境
信息技術環境實現,需要硬件和軟件的支撐。計算機、網絡信息技術和數字圖書館信息資源共同構成了獨立的數字圖書館信息環境。信息存儲、數據處理、信息資源安全等,在當前信息資源開放度越來越高、技術條件越來越完備的今天,數字圖書館細粒度知識體系資源共享的條件已經具備。
數字圖書館細粒度知識體系資源共享空間的構建,需要從系統工程的角度進行思考。其中包含基礎物理設施硬件技術的研究與發展、開發與應用平臺技術、資源整合層面的技術發展、應用層面的技術發展以及訪問層面的技術應用與發展、信息資源安全技術等。現在流行的數字圖書館共享資源空間建設的一般性做法是基于Web技術,采用API服務模式滿足用戶需求。
4.1細粒度知識體系處理技術與實現
數字圖書館細粒度知識體系處理技術最大的特點是面對數據的多樣性和復雜性。由于數據來源復雜、數據量龐大以及類型復雜等,其技術實現需要3個階段:①抽取和集成數據;②分析數據;③解釋數據。
抽取和集成數據在數據庫處理時代已經廣為應用,其過程是首先對數據源提取其關系和實體;通過統一的結構定義將關聯和聚合后的數據進行存儲。基于細粒度知識組織的用戶行為是隨機的,因此,為了實現數據的質量和可信度,對初步采集的數據需要做清洗工作。由此可見,細粒度知識組織是先有數據然后有具體的模式。數據不斷變化,造成模式不斷演變,數據的抽取和集成也處于不斷演變的過程中。當前較為成熟的抽取和集成模式有4種:基于物化或ETL方法的引擎、基于聯邦數據庫或中間件方法的引擎、基于數據流方法的引擎、基于搜索引擎的方法。
分析數據是數字圖書館細粒度知識組織共享空間構建的核心。從抽取和集成所獲得的原始數據當中,對全部數據或部分數據進行分析,這種海量的工作再一次將細粒度本體理論推到了應用領域的前沿。基于用戶服務目標的數字圖書館細粒度知識體系共享空間的構建,隨著數據分析技術的不斷拓展,也將不斷提升數據分析的能力和分析結果的質量。
數據解釋就是給用戶呈現最后的數據分析結果。在當前的數字圖書館細粒度數據解釋過程中,我們經常會看到基于可視化技術和人機交互技術的數據呈現工作。可視化技術是采用標簽流、空間信息流、歷史流等進行數據呈現;交互技術則主要是通過數據起源技術,聯合用戶一起進行數據分析的過程,并最終對過程予以呈現。
4.2數字圖書館細粒度知識體系共享空間技術實現路徑
多個數字圖書館之間實現共享空間的建設,都基于物理層、平臺層和應用層3個層次。如果我們將數字圖書館比作“汽車”,支撐汽車運行的就是高速公路,數字圖書館細粒度知識組織的共享就是實現數字圖書館館際間的存儲、管理與分析,既所謂的高速公路。
物理層是通過虛擬化軟件系統管理物理設備,根據館際間的應用需求自主分配虛擬硬件資源。經常以虛擬化技術提供laas服務。
平臺層是數字圖書館館際間進行協同工作,依托于云技術實現超大規模的數據計算和海量存儲服務。通過分布式計算和并行處理關鍵技術為用戶提供PaaS服務。
應用層是針對用戶的個性化定制、智能檢索、資源導航等需求,構建數字圖書館館際間統一接口、單點登錄、一站式訪問等協同與服務。
4.3數字圖書館細粒度知識體系共享空間的安全保障
數字圖書館細粒度知識體系共享空間的安全保障主要體現在:系統安全、網絡安全、用戶操作安全以及數據安全等方面。當前較為可靠的安全措施是數字簽名技術,該技術保證了信息安全基本可以做到:保密性、完整性、可用性、可控性、真實性、法律憑證保障以及可追溯性。這一技術發展最為成熟的Google和IBM。針對細粒度知識體系的海量數據特征,為了避免網絡過載采用云計算實現分布式、異構信息資源的負載均衡;在保障信息安全時,采用冗余備份、容錯容災等技術,實現數據丟失、病毒侵入、服務中斷等安全性問題的回避和防止。所以,我們在使用數字圖書館的時候,會經常遇到身份認證、數據加密、安全存儲等各類服務。
5.1社會化標簽
社會化標簽的社會屬性是在信息的傳播過程中,反映出了特定的人際,從而呈現出了其社會化的獨特作用。用戶行為產生的元數據產生了大量的社會化標簽,并能夠反映用戶的需求與變化。但大眾參與構建社會化標簽不能簡單以用戶興趣構建細粒度知識組織模型,否則會出現雜亂無章的情況。因此,尋找社會化標簽的共性關系,實現標簽網絡的有序化,是當前數字圖書館細粒度知識組織研究的重要方向。通過這種社會標簽網絡的構建,不但要找出其中所蘊含的規律,更要揭示其內在關聯,實現數字圖書館細粒度知識體系的有序組織。
5.2社會化標簽網絡
社會化標簽含義,很清晰地反映出基于用戶行為的細粒度知識體系節點的出現,這些節點共同構成了社會標簽網絡的本質內涵,既共現網絡。要梳理其在數字圖書館資源中雜亂無章的用戶行為特征,我們用用戶層次社會化標簽和數字圖書館層次社會化標簽來定義社會化標簽網絡。
用戶層次的社會化標簽是將單個用戶的數字圖書館使用行為作為社會化標簽分析對象;數字圖書館層次的社會化標簽網絡是對圖書館所有用戶使用行為作為分析對象。在該系統中,一旦出現兩種層次標簽共現的狀況,則可以認為共現標簽之間存在內在關聯,并建立關系。因此,存在了兩種社會化標簽網絡模式,既用戶模式和數字圖書館模式。兩種模式的構建需求是基于用戶興趣的多元,所以兩種網絡模型包含了若干彼此不連接的社會化標簽網絡,也就是說數字圖書館社會化標簽網絡模型對應的是主題領域,而用戶社會化標簽網絡模型對應的是單個用戶興趣領域,因此,社會化標簽網絡處于不斷的動態演變過程中。而數字圖書館細粒度知識體系基于用戶行為產生不斷的進化。
以上社會化標簽的細粒度知識體系構建,正是未來理論與實踐發展的方向。數字圖書館知識體系劃分之初,學者們已經發現很難用傳統知識分類進行網絡條件下的知識組織體系建設。隨著泛在知識環境的出現,學者們發現,在信息時代通過網絡技術可以實現人與人之間的信息交換、人與物之間的信息交換以及物與物之間的信息交換,利用分布于全球的龐大計算機系統,提出了泛在網條件下的知識呈現。而用戶行為是多元化的,其產生的信息也是雜亂無章的,因此,為了使這些無序的知識需求信息有序化,學者們構建了基于本體論的數字圖書館知識體系構建原則和技術方法。也就是說,當人們在無序的知識組織當中更加需要知識本質的內在聯系,使知識組織體系得到有序劃分和使用。這種知識體系結構已經不是“樹狀”或者是“盒子”或者是“目錄”結構的知識組織,形成另一種全新的網狀知識結構。在這一網狀知識結構中,各個知識標簽節點的劃分越是細致就越能夠滿足用戶需求,因此,數字圖書館細粒度本體知識體系為用戶需求實現帶來了新的研究方向。雖然,當前的數字圖書館細粒度知識體系研究還不是很完善,但作為數字圖書館知識組織未來研究方向一定會取得巨大的突破,使用戶需求獲得更大的滿足。研究數字圖書館細粒度知識體系,有助于構建數字圖書館知識體系的發展標準。
參考文獻:
[1]齊勇,羅英偉,孫毓忠.網絡資源虛擬化技術專題前言[J].軟件學報,2014(10):2187-2188.
[2]陳傳夫,錢鷗,代鈺珠.大數據時代的數字圖書館建設研究[J].圖書情報工作,2014(7):40-41.
[3]張興旺.大數據知識服務體系研究[J].情報資料工作,2013(2):12.
[4]李晨暉,崔建明,陳超泉.大數據知識服務平臺構建關鍵技術研究[J].情報資料工作,2013(2):29-34.
[5]郭自寬,張興旺,麥范金.大數據生態系統在圖書館中的應用[J].情報資料工作,2013(2):24-29.
[6]秦曉珠,李晨暉,麥范金.大數據知識服務的內涵、典型特征及概念模型[J].情報資料工作,2013(2):19-23.
[7]張興旺.圖書館大數據體系構建的學術環境和戰略思考[J].情報資料工作,2013(2):13-18.
[8]張曉林.研究圖書館2020:嵌入式協作化知識實驗室[J].中國圖書館學報,2012(1):13-22.
[9]黃力.基于物聯網技術的圖書館服務模式與內容的研究[J].圖書館學研究.2011(6):51-55.
[10]陶飛,等.云制造特征及云服務組合關鍵問題研究[J].計算機集成制造系統,2011(3):31-40.
盧艷蘭女,1976年生。本科學歷,館員。研究方向:圖書分編與讀者服務工作。
[分類號]G250.76
收稿日期:(2016-05-11;責編:王天泥。)
*本文系廣西哲學社會科學規劃課題“基于大數據知識服務體系的數字圖書館發展戰略研究”(編號:13BTQ002);CALIS廣西壯族自治區文獻信息服務中心項目“基于大數據的圖書館移動用戶行為研究”(CALISGX201505)的研究成果。