李錦霞
(大連圖書館,遼寧大連116012)
基于關聯標簽的數字圖書館館藏資源主題分類研究
李錦霞
(大連圖書館,遼寧大連116012)
數字圖書館館藏資源社會化標簽是用戶對圖書館期刊資源內容的意識反映,標簽內容包含了多種價值信息。介紹了相關研究背景,闡述了研究思路與研究方法。從標簽關聯程度出發,通過對館藏資源標簽采集、預處理及期刊資源標簽間關聯關系進行研究,實現了基于關聯標簽的數字圖書館館藏資源主題特征分析。通過具體事例介紹了程度中心度分析法、中間中心度分析法和接近中心度分析法在基于關聯關系的數字圖書館館藏資源主題分類研究中的應用。通過深入分析館藏期刊資源網絡社會化標簽間的關聯關系,對館藏資源主題進行集中展示,為數字圖書館館藏資源有效組織、展示與利用提供參考。
數字圖書館館藏資源關聯標簽主題分類社會網絡分析
隨著互聯網應用范圍的不斷擴大,網絡體系參與和管理者的數量與日俱增,每個互聯網使用者都將成為互聯網資源的生產者、傳播者和建設者。在人們使用互聯網的同時,也對互聯網產生較大的影響[1]。比如,在互聯網使用過程中,由于用戶喜好不同,其可能對自己喜歡的網絡資源采取不同的操作方法,如有些用戶可能會及時收藏所喜歡的資源,有些用戶可能會將所喜歡的資源進行分享等。用戶對網站的每項操作均屬于網絡資源的社會標注,即社會化標簽,在這些社會化標簽中蘊藏了關于用戶使用習慣及資源優劣等有價值的信息。通過對這類社會化標簽的研究,將有助于圖書、圖片、視頻等網絡資源的推介,有利于大眾化資源的導航與檢索。
近年來,數字圖書館網絡體系建設得到迅猛發展,大量館藏資源得到聚集。如何對這些館藏資源進行有效整理并向用戶提供更為精確的個性化資源推介成為一個關鍵問題[2],而通過對數字圖書館館藏資源社會化標簽的研究可以有效解決這一問題。館藏資源社會化標簽蘊含了許多圖書館用戶對館藏資源使用習慣和個性化選擇,通過對基于關聯標簽的數字化圖書館館藏資源主題分類進行研究,可以實現圖書館館藏資源社會化標簽個性化推薦服務,方便用戶信息查詢。
圖書館館藏資源是人類知識傳播和延續的重要基礎。圖書館館藏資源的存儲形式是多種多樣的,有些是以網頁來保存的,有些是以電子文檔來保存的,有些則是以圖片、視頻等形式來保存的。對于圖書館這些資源,如果不加以整理和分類,必將影響整個圖書館的運行效率。
隨著圖書館用戶數量的逐漸增加,大量用戶對自己所喜歡的資源會進行相關描述,這些描述可以被看作為圖書館館藏資源的社會化標注[3-4]。目前,常見的標注主要有以下3種:①基于內容的標注。用戶針對圖書館個別館藏資源主要內容及該資源的使用需要,將資源中的主要信息提取并標注出來。這類標注主要側重于資源的使用信息,因該標注信息可能是片面的,由此導致該標注準確度不高;②基于專家的標注。在圖書館館藏資源存儲之前,專家將會對資源進行專業的描述,使得該資源的主要內容等得到闡述。該方法雖然提高了資源標注的精確度,但是耗費了大量的時間和人力,同時由于專家對資源信息的描述一般會用到專業詞匯,這將導致多數用戶很難理解,不利于廣大用戶的信息檢索;③基于社會化標簽的標注。該方法是建立在第一、二種方法基礎之上,它將用戶和專家的標注進行匯總,并提取出所有標注中的共性標注作為一類資源的統一描述;對于專業性較強的資源,可使用專家的描述標注,同時備注用戶常用的詞匯,以豐富資源檢索的可行性。
隨著資源標注內容的增多,館藏資源社會化標簽的數量也急劇增多,如果不對標簽體系的規范化、結構層級的合理化進行處理,必將導致整個圖書館資源導航出現問題。數字圖書館館藏資源社會化標簽代表的是資源的多維特征,這一特質使得標簽與標簽之間存在一定的關聯。大量同類標簽組合在一起則可以凸顯館藏資源的一些主題特征。筆者通過使用關聯標簽對圖書館館藏資源主題分類進行研究,旨在提高圖書館文獻資源的使用效率。
2.1研究思路
通過對圖書館館藏資源進行主題分類,館員不僅能發現館藏資源的主要內容特征,比如資源題目、作者、等,還要深層次挖掘資源的核心特征,即該資源的主要研究內容、研究方法、研究結果等。只有通過高層語義和低層語義的館藏資源主題挖掘才能很好地獲得這類特征信息[5-6]。鑒于此,本研究將以圖書館館藏資源社會化標簽為研究對象。具體研究思路:首先,依據圖書館館藏資源社會化標簽之間的關聯關系,構建關聯標簽網絡,并利用社會網絡分析方法對所構建的標簽網絡的主題與群落進行分析;其次,通過標簽間的關聯關系構建圖書館館藏資源共標簽網絡,并通過社會網絡分析方法對該共標簽網絡進行分析;最后,對這兩類標簽網絡的特征和結果進行分析,形成圖書館館藏資源的主題特征。這一研究思路集合了共標簽和關聯標簽的各自優勢,能更好地實現圖書館館藏資源主題分類和應用研究。
2.2研究方法
社會網絡分析方法是建立在多個社會網絡節點基礎之上的。社會網絡是由龐大的節點和不同節點間錯綜復雜的關聯關系所構成的,它不會以某個節點的具體位置或者是形態的變化而變化??傮w來看,社會資源網絡可以被定義為知識關聯、知識單元以及知識群落的共同體。知識本身不僅包含數字資源,而且包含了不同知識載體的各種關聯關系。社會網絡分析方法提供了一系列的知識載體、知識關系的分析挖掘方法,它能幫助學者深層次研究和分析圖書館館藏資源社會化標簽所隱含的內在規律,進而科學合理地設計圖書館館藏資源主題分類導航系統。
3.1館藏資源標簽采集
館藏資源社會化標簽的采集是進行圖書館館藏資源主題分類研究的基礎。社會化標簽的采集方法有很多種,可以提供語義關聯對圖書館館藏資源社會化標簽進行采集,也可以通過手動添加的方法來實現。筆者通過語義關聯,對館藏資源中檢索頻率較高的資源信息進行分析,提取并匯總出針對某資源的所有社會化描述,完成標簽采集過程。然而在整個標簽采集過程中,可以很明顯地看出,所采集的社會化標簽信息在結構上是極其松散的,標簽與標簽之間所隱含的深層次關系也是不易發現的,同時各個標簽所描述的資源信息也是片面的。因此,對社會化標簽的采集僅僅是主題分類研究的第一步。
3.2館藏資源標簽預處理
標簽預處理的對象為采集到的館藏資源社會化標簽所有內容。預處理階段作為標簽采集的后續階段,對整個標簽網絡的構建起到了重要作用,它主要實現了某個資源所有社會化標簽的整理與主要特征的挖掘。比如,針對一篇圖書館管理系統論文的社會化標簽的預處理,首先需要對社會化標簽采集中所得到的題目名稱、作者畢業院校、主要研究內容等標簽信息進行整理和歸類,同時還要對每個用戶所標注的社會化標簽進行分析與挖掘。一些用戶可能對該篇文章中的研究方法感興趣,并進行了標注;一些用戶可能對該文章的研究結果非常關注,并進行了標注;一些用戶可能對文章中所使用到的試驗方法非常關注,并進行了標注。標簽預處理就是要將這些標注結合文章的實際內容進行整理與挖掘,形成關聯標簽矩陣,使得每個資源的標簽都能全面、準確地反映出該資源的整體特征。
3.3館藏資源關聯標簽網絡體系的構建
標簽預處理的結果是得到資源社會化標簽的內在聯系,進行關聯標簽網絡體系的構建。該體系的構建是通過社會網絡分析技術,對標簽預處理形成的關聯標簽矩陣進行展開,分析各標簽間的關聯,發現其中的隱含知識信息。在整個關聯標簽網絡體系中,每個經過預處理的社會化標簽將作為一個節點出現,節點之間的距離大小將反應出標簽之間的關系。比如,兩個節點之間距離很近,這代表了這兩個節點所代表的標簽關系很緊密。在整個關聯標簽網絡體系中,可能存在多個節點重合的現象,該現象反映出這些標簽內容信息的重疊,從側面可以反應出用戶對該資源信息的關注方面。
基于關聯標簽的網絡體系雖然可以在一定程度上反映出每個不同標簽之間的特征聯系,但節點的重疊卻使得整個結構網絡體系變得異常模糊,增加了標簽特征的辨識難度。鑒于此,筆者在社會化網絡分析方法的基礎上,結合了中心度分析法,對關聯標簽網絡體系進行了進一步的特征分析,深入探討了圖書館館藏資源主題特征與發現。
中心度分析方法可以實現某關聯標簽在整個關聯網絡體系中位置的檢測,同時對該標簽在網絡體系中的重要程度與地位進行判別,這種方法將對數字圖書館館藏資源主題分類的精確度有極大的提升。中心度分析方法主要可以分為3種,即程度中心度分析法、中間中心度分析法和接近中心度分析法。筆者以某數字圖書館館藏資源關聯標簽網絡中心度分析結果為例對此方法進行介紹。

表1 某數字圖書館館藏資源關聯標簽網絡中心度分析結果
4.1程度中心度分析法
程度中心度分析法主要是以某個節點為基礎并對該節點有直接關系的節點進行測量,發現節點間的關系程度。表1顯示程度中心度相對較高的是“圖書館”,程度達到“99.1%”,這說明該標簽幾乎和其它標簽都存在關聯,并且處于標簽網絡體系的核心位置,也就是說多數資源信息中都有該標簽信息的存在。其它標簽如“云計算”“系統設計”等也有相對較高的位置。對于“試驗”這一標簽,程度為“0%”,這代表了該標簽信息在這個標簽網絡體系中的關系非常弱。
4.2中間中心度分析法
中間中心度分析法主要用于分析兩個節點之間的關系程度,通過最短路徑分析法來進行判別。從表1可以看出,“系統”的程度指數最高,為“5.13”,也就是說該標簽在整個標簽網絡體系的構建中具有重要戰略意義,多數圖書館館藏資源中均包括這一標簽信息。而“試驗”標簽的程度指數為“0”,這說明該標簽在整個標簽網絡體系中是孤立存在的,不與其它標簽存在聯系。
4.3接近中心度分析法
接近中心度分析法主要是客觀測量兩個節點之間的距離來判別關系程度,所采用的是常規接近中心度的倒數形式,程度值越大,所代表的接近中心度越高,同時代表節點間的關系越緊密。由表1可以看出,“圖書館”、“云計算”、“系統”處于整個標簽網絡體系的前三位,程度均處于95%以上,由此可以看出它們與其它節點的距離最近,而“試驗”的程度為“0%”,由此可以看出該標簽節點與其它節點最疏遠。
筆者在對用戶圖書館館藏資源使用習慣分析的基礎上,以數字圖書館館藏資源社會化標簽為基礎,通過關聯標簽研究方法構建了共標簽和關聯標簽網絡體系,并通過社會網絡分析方法,結合標簽節點中心度分析法,得到了數字圖書館館藏資源主題特征。該主題特征的獲得將有助于以用戶習慣或者用戶個性化需求為主題的應用服務發展。筆者雖然做了大量的工作,但仍存在一些不足之處:一方面,本研究中所采集的社會化標簽的范圍有限,涵蓋的地域較少。地域之間的差異將會影響到數字圖書館館藏資源社會化標簽的采集,同時范圍的局限有可能導致標簽預處理中個別特征的缺失;另一方面,在標簽預處理階段因語義關聯技術自身問題可能導致標簽間的關系存在少量混亂,在今后的研究中應當結合大數據分布式處理技術來對大量數字圖書館館藏資源社會化標簽進行處理,以期得到更為全面的標簽主題。
[1]滕廣青,畢強,高婭.基于概念格的Folksonomy知識組織研究——關聯標簽的結構特征分析[J].現代圖書情報技術,2012(6):22-28.
[2]畢強,等.面向知識關聯的標簽云優化機理研究[J].現代圖書情報技術,2014(5):33-40.
[3]黃微,等.Folksonomy中Tag語義距離測度與可視化研究[J].現代圖書情報技術,2014(7):64-70.
[4]陳婷,胡改麗,陳福集.社會化標注系統的語義標簽資源導航構建[J].圖書館建設,2015(1):78-83.
[5]靳延安,等.社會標注及其在信息檢索中的應用研究綜述[J].中文信息學報,2010(4):52-62.
[6]劉向紅.大眾標注在非遺數據庫中的應用[J].圖書館建設,2014(12):39-42.
李錦霞女,1977年生。本科學歷,館員。研究方向:分類、機讀目錄。
G250.76
(2016-08-29;責編:楊新寬。)