賴思銀(廣東石油化工學院圖書館,廣東茂名525000)
?
國內圖書情報領域基于圖書推薦的共詞聚類分析*
賴思銀
(廣東石油化工學院圖書館,廣東茂名525000)
[摘要]選取CNKI數據庫中收錄的圖書情報領域以“圖書推薦”為主題的文獻為數據來源,運用SATI進行詞頻的統計構建相關矩陣,基于共詞分析法,借助SPSS軟件進行聚類分析和多維尺度分析,結果表明目前國內圖書情報領域圖書推薦的研究熱點主要集中于4個方面,即讀者借閱興趣模型構建、數據挖掘與處理、圖書推薦服務與閱讀推廣、圖書推薦系統應用與推廣,并對研究主題進行了詳細解析,為國內圖書情報領域圖書推薦的研究提供參考。
[關鍵詞]圖書館學情報學圖書推薦共詞分析SPSS
圖書館館藏資源作為科學情報傳遞工作的物質基礎條件,擁有著海量的優質資源,這些資源是人類長期積累的一種智力資源。近年隨著計算機信息技術的高速發展,這些傳統的智力資源也在向數字化、網絡化方向發展,推動了圖書館服務的時空延伸性。然而在海量的資源面前,讀者卻很難從中發現自己感興趣的信息資源,或者說很難呈現讀者真正想要的資源,這與信息化發展過程中的個性化、智能化等特點相悖。以讀者檢索圖書文獻為例,當讀者在檢索系統輸入關鍵詞進行檢索時,服務端被動接受讀者提交的數據進行反饋,這個過程并沒有結合讀者以往的歷史記錄等信息進行綜合考慮讀者需求的興趣或個性偏好,導致這種服務模式顯得過于單一與低效,同時也降低了圖書文獻的利用率。針對這一問題,在當代圖書館發展過程中關于服務個性化、智能化的問題探討越來越多,個性化、智能化的圖書推薦服務正成為圖書館界一個研究熱點,在此背景下,筆者基于共詞分析法對國內圖書情報領域關于“圖書推薦”的研究主題進行了整理分析,借助SPSS軟件進行數據的分析與展顯,以期為國內圖書情報領域的圖書推薦研究提供參考。
筆者所使用的數據來源于CNKI數據庫,設定檢索字段為“圖書推薦”,檢索學科類別設定為“圖書情報與數字圖書館”,檢索時間為2015年10月10日,共檢索出179條記錄,借助Excel、SATI3.2等軟件進行關于“圖書推薦”為主題的高頻關鍵詞進行抽取和構建共現矩陣、相關矩陣和相異矩陣,通過SPSS軟件進行聚類分析和多維尺度分析,其結果可為國內圖書情報領域關于“圖書推薦”的研究提供一定的參考。
3.1詞頻統計分析
共詞分析法是一種常用的內容分析方法,其原理是統計一組文獻的主題詞兩兩之間在同一篇文獻出現的頻率,便可形成一個由這些詞對關聯所組成的共詞網絡,根據網絡內節點之間的遠近便可以反映主題內容的親疏關系,通過研究文獻主題詞對象,利用應力系數、聚類分析等統計分析方法,把眾多分析對象之間錯綜復雜的共詞網狀關系簡化為以數值、圖形直觀地表示出來的過程[1]。關鍵詞是一系列主題詞的邏輯組合,常用于科技論文、科技報告和學術論文的文獻主題思想內容表達,是文獻主題概念實際意義的自然語言詞匯,其主要功能是便于讀者查閱和檢索文獻[2]。對關鍵詞的詞頻統計和共詞分析能夠客觀反映國內關于“圖書推薦”研究的發展情況。
運用SATI3.2軟件對CNKI中圖書情報領域中檢索出的關于“圖書推薦”的文獻進行關鍵詞抽取并進行頻次統計,在檢索到的179篇文獻中共含關鍵詞2363個,經過合并意思相近、去除無實際意義關鍵詞等數據處理手段后,最后選擇了頻次統計≥7的21個高頻關鍵詞進行分析研究,如表1所示。

表1 國內圖書情報領域“圖書推薦”研究論文高頻關鍵詞
通過對高頻關鍵詞進行兩兩統計,統計選取的21個關鍵詞在文獻中出現的總次數,構建一個21*21的共詞矩陣。由于共詞矩陣在表現各關鍵詞之間頻率高低的時候存在單一性,為了消除這種單一性,更好地體現各關鍵詞之間的內在聯系,將共詞矩陣轉換為相關矩陣[3]。相關矩陣也叫相關系數矩陣,由矩陣各列間的相關系數構成。經轉換后的相關矩陣數值在[0,1]區間,數值越接近1,表示兩關鍵詞之間的相似度越大,距離越近。數值越接近0,表示兩關鍵詞之間相似度越小,距離越遠。由于在統計的過程中存在較大的誤差,相關矩陣中的稀疏性明顯,為了進一步減少誤差,更好地進行下一步的分析研究,將相關矩陣轉化為相異矩陣。相關矩陣如表2所示,相異矩陣如表3所示。

表2 相關矩陣(截取部分)

表3 相異矩陣(截取部分)
3.2聚類分析
聚類分析(Cluster Analysis)是一個將數據集中的所有數據,按照相似性劃分為多個類別(Cluster,簇:相似數據的集合)的過程。聚類分析要求同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。從統計學的觀點看,聚類分析是通過數據建模簡化數據的一種方法。將表3相異矩陣導入SPSS軟件,采用系統聚類中的Ward法進行聚類分析,Ward聚類方法的思想是同類內離差平方和較小,不同類之間偏差平方和較大。設定聚類距離為歐氏距離,分別得到聚類凝聚表和聚類樹狀圖,聚類凝聚表如表4所示。

表4 層次聚類分析的凝聚狀態
通過觀察高頻關鍵詞層次聚類分析的凝聚狀態表可知,第一步由關鍵詞15(決策樹)21(興趣模型)聚成一類,然后在第14步和關鍵詞12(個性化圖書推薦)聚成一類,關鍵詞12又在第6步和關鍵詞16(聚類)聚成一類,接下來就是關鍵詞15和關鍵詞21聚成的類與關鍵詞12和關鍵詞16聚成的類再進行聚合形成新的聚類,其他聚合過程依此類推,其聚類結果可見聚類樹狀圖2。

圖2 高頻關鍵詞層次聚類分析樹狀圖
觀察高頻關鍵詞層次聚類分析的凝聚狀態表和高頻關鍵詞層次聚類分析的樹狀圖可以發現:國內圖書情報領域“圖書推薦”研究熱點主要集中于“讀者借閱興趣模型構建”“數據挖掘與處理”“圖書推薦服務與閱讀推廣”“圖書推薦系統應用與推廣”4個主題,具體分析筆者將在后文進行闡述。
3.3多維尺度分析
多維尺度分析(MDS),是基于研究對象之間的相似性或距離,將研究對象在一個低維(二維或三維)的空間形象地表示出來,進行聚類或維度分析的一種圖示法。通過多維尺度分析所呈現的空間定位圖,能簡單明了地說明各研究對象之間的相對關系[4]。
將表3的高頻關鍵詞相異矩陣輸入SPSS進行多維尺度分析,選擇PROXSCAL分析模型,擬合結果如表5所示。其中標準化初始應力系數(Stess)為0.12612,效果為好;離散所占比例(D.A.F.)為0.87388,擬合程度效果較好。
多維尺度分析的變量二維分布圖可以根據各高頻關鍵詞之間的距離遠近較全面地反映出各高頻關鍵詞之間的聯系,如圖3所示。通過觀察圖3變量二維分布圖的結果,可以看出圖中反映的結果和聚類分析中凝聚狀態表和樹狀圖反映的結果比較符合。

表5 多維尺度分析的擬合度結果

圖3 多維尺度分析的變量二維分布圖
4.1I類:讀者借閱興趣模型構建
讀者借閱興趣模型是指讀者在某個時間周期內相對穩定的圖書借閱信息需求的形式化描述,反映了讀者在一段時間內的興趣傾向。讀者借閱興趣模型構建是個性化圖書推薦服務的關鍵所在,可以對服務系統產生直接的影響,近年來讀者借閱的興趣模型構建受到越來越多的研究者重視。馬華[5]在研究了某高校圖書館的讀者數據后利用數據挖掘中的決策樹方法,對不同的讀者進行了閱讀興趣的分類,構建了基于數據挖掘技術中決策樹算法的讀者閱讀興趣模型,為讀者提供了個性化的圖書推薦服務。
4.2II類:數據挖掘與處理
數據挖掘技術是指通過算法從大量數據中深層挖掘其中隱藏的共性規律的過程,并通過建立個性化的推薦系統為用戶提供主動的信息推薦服務。由于數據挖掘具有強大的信息整理與分析能力,越來越多的商業用戶把數據挖掘技術用于知識發現上面。數據挖掘技術應用于圖書館則是利用了圖書館現有的業務數據庫里的讀者借閱數據,通過對這些數據進行挖掘與分析,可以發現讀者借閱圖書的興趣偏好與共性,進而在讀者的個人數字圖書館頁面進行書目推薦。周玲元[6]提出了一種改進的Apriori算法在高校圖書推薦服務中的應用方法,通過改進的數據挖掘算法,把數據庫里潛在的聯系轉化成顯性知識進行推薦服務,提高了服務質量。
4.3III類:圖書推薦服務與閱讀推廣
在信息高速發展的推動下,讀者對于信息和閱讀的需求也越來越趨于向個性化、多元化的方向發展,圖書館應該通過深入調查讀者的內在需求,充分了解讀者對于圖書偏好等信息,制定符合讀者的書目推薦服務,有的放矢地開展圖書館的圖書推薦服務和閱讀推廣服務。
4.4IV類:圖書推薦系統應用與推廣
圖書推薦系統的構建主要是基于關聯規則的數據挖掘,利用讀者借閱數據,將讀者的借閱數據轉化成適合個性化需求的讀者數據,并在圖書推薦系統中進行可視化的技術應用。圖書推薦系統的技術應用可以為讀者提供圖書借閱的主動引導,提高借閱效率,具有重要的研究意義。我國比較成熟的圖書推薦系統主要包括:國家科技圖書文獻中心系統(NSTL)、中國高等教育文獻保障系統(CALIS)、國家科學數字圖書館(CSDL)。
通過對國內圖書情報領域圖書推薦的高頻關鍵詞進行聚類分析、多維尺度分析,筆者發現國內圖書情報領域關于圖書推薦的研究集中于“讀者借閱興趣模型構建”“數據挖掘與處理”“圖書推薦服務與閱讀推廣”“圖書推薦系統應用與推廣”4個方面。總體來說,國內圖書情報領域對于圖書推薦的研究側重于理論探討,而在技術和實踐應用方面的研究有所欠缺。另外研究力度不均衡,個別主題存在較多重復研究,而在應用推廣、圖書借閱信息的數據挖掘應用等主題上,研究內容不夠深入。國內圖書情報領域的學者應加強對圖書推薦的創新性和持續性研究,開拓新的研究主題,重點探討圖書推薦的計算機技術手段的應用及閱讀推廣方法的有效推廣等方面的應對策略。
參考文獻:
[1]馮璐,冷伏海.共詞分析方法理論進展[J].中國圖書館學報,2006(2):88-92.
[2]劉濤,劉玉英,杜亮.近5年圖書館學研究熱點分析基于共詞分析視角[J].圖書館學刊,2012(10):122-125.
[3]郭春俠,葉繼元.基于共詞分析的國外圖書情報學研究熱點[J].圖書情報工作,2011(20):19-22.
[4]翁勝斌.CNKI數據源的關鍵詞共現分析與多維尺度分析的現實方法[J].現代情報,2013(4):27-38.
[5]馬華,等.決策樹分類算法在個性化圖書推薦中的應用[J].軟件,2012(8):100-104.
[6]周玲元,段隆振.改進的Apriori算法在高校圖書推薦服務中的應用研究[J].圖書館學研究,2013(2):89-91.
賴思銀男,1978年生。碩士,館員。研究方向:數據庫、數據分析、數字圖書館。
(由稿日期:2015-12-03;責編:楊新寬。)
[分類號]G252.1
*本文系廣東省茂名市科技計劃項目“多維度高校圖書館數據倉庫構建研究”(項目編號:20150350);廣東石油化工學院青年創新人才培育項目“基于數據挖掘的圖書館信息推送系統研究”(項目編號:512102)成果之一。