〔摘 要〕共詞聚類分析是情報學中進行學科熱點探測#65380;掌握學科發展脈絡的一種主要方法,目前已經比較成熟得到了廣泛的應用#65377;Autonomy公司開發的autonomy智能搜索系統也同樣具備專題聚類的功能,本文對該系統專題聚類的原理以及功能進行了闡述,并用CSCD的試驗數據對系統的聚類功能進行測試#65377;通過對試驗結果的分析和解釋,證明了autonomy系統的專題聚類功能具有一定的應用價值,可以與其他聚類方法結合起來,對探測學科熱點提供一定的幫助#65377;
〔關鍵詞〕autonomy系統;聚類;學科熱點
〔中圖分類號〕G353.1 〔文獻標識碼〕B 〔文章編號〕1008-0821(2009)08-0025-04
The Application of Autonomy on E xploring Discipline HotspotsYue Ting Zhang Jianyong
(Library of Chinese Academy of Sciences,Beijing 100190,China)
〔Abstract〕Co-word clustering analysis is a kind of main method to explore the disc ipline hotspots,and it is widely used in Information Science.Autonomy search sys tem developed by autonomy company also has a function of clustering.The paper ex pounded the theory of autonomys clustering and tested this function by some da ta in CSCD.By analyzing the clustering result,Autonomys clustering is effectiv e,and it could be used with other clustering method to find the discipline hotsp ots.
〔Key words〕autonomy;cluster ing;discipline hotspots
共詞聚類分析是情報學中進行學科熱點探測#65380;掌握學科發展脈絡的一種主要方法#65377;它的主要原理是:選取一組文獻的高頻主題詞,兩兩統計它們同一篇文獻出現的頻率,形成一個高頻主題詞的共詞矩陣,以這個矩陣計算生成的相似矩陣為基礎,利用聚類的方法來判斷哪些主題詞的關系緊密#65377;這些關系密切的主題聚集在一起形成類團,表達某一領域分支的組成[1]#65377;這種方法已經相對比較成熟,已經在學科領域熱點的探測中得到了廣泛的應用#65377;
Autonomy系統是一個基于語義計算的智能搜索系統,專題聚類分析也是該系統的一個重要功能#65377;系統的聚類分析是建立在香農信息論和貝葉斯概率論的基礎之上,其原理與通常所使用的共詞聚類分析不同#65377;并且,Autonomy還具有對聚類結果進行可視化的功能#65377;本文對Autonomy系統專題聚類的原理進行了分析和闡述,并嘗試用Autonomy系統對中國科學引文數據庫中圖書情報領域的文摘數據進行聚類分析,旨在為揭示領域內的學科熱點和研究結構提供一種新的思路和方法#65377;
1 Autonomy系統的專題聚類原理分析
香農信息論和貝葉斯概率論的結合應用是Autonomy系統的特點之一#65377;
香農對消息和信息進行了區分:消息由于具有不確定性而含有信息,對消息進行通信可以消除或部分消除這種不確定性#65377;而信息是對事物運動狀態或存在方式的不確定性的描述#65377;也就是說,信源能夠發出一系列的消息,消息經過通信消除了不確定性而變成信息#65377;
香農的研究表明,如果信源{x1,x2…,xn}所發生的概率分別是{p1,p2,…pn},那么每個信源消息xi發出后,產生的信息量為I(xi)=-log(p(xi))[2]#65377;這個函數是一個負對數函數,說明一個信源消息發出的概率越大,它所產生的信息量越少#65377;這是信息論的基本觀點#65377;
如果把一篇論文看作是一個信源,它含有若干個詞語,一個詞語重復的頻率越多,其內容越不具有概括性,反之其包含的信息內容越豐富#65377;
貝葉斯概率的計算公式為:
這一公式主要用于計算多個變量之間的概率關系,以及確定一個變量對另一個變量的影響程度#65377;
貝葉斯概率論的本質是當一個事物的本質不能被準確知悉時,可以依靠與這一事物本質相關的事件出現的多少去判斷其本質屬性的概率#65377;將這一理論應用到論文的聚類分析中:通過論文中一個詞語出現的頻率的多少和與其它詞語之間的關系來決定其成分的重要性#65377;論文中的每個詞語的權重#65380;論文間詞語的相關度不僅由其本身出現的頻率決定,還取決于與其他詞語之間的關系#65377;
Autonomy系統的聚類分析方法是這樣的[3]:
(1)系統的聚類分析是抽樣進行的,首先根據論文集合的數量計算出抽樣的次數和每次抽樣的文檔數量,并開始抽樣#65377;
(2)對于每次抽取出的樣本論文,利用香農信息論抽取論文中的信息內容最豐富的重要詞匯(系統稱之為“概念”)作為聚類的主題來源(系統支持學科專業詞表,基于詞表抽取的概念能夠更加規范化)#65377;
(3)基于貝葉斯概率論計算每個概念在單篇論文中的權重以及在系統中所有論文中的權重,根據這兩個權重計算概念之間的相關度,相關度大于某個閾值的聚為一類#65377;當系統中論文集合有所變化時,概念在所有論文中的權重會隨之變化重新進行計算#65377;因此,系統對概念之間的相關度計算不僅依賴于概念在單篇論文中的出現的詞頻,更加依賴于其所在的上下文環境以及與其他概念之間的關系#65377;
共詞聚類分析Autonomy聚類聚類主題來源 高頻主題詞或關鍵詞,由信息標引者或作者直接給出基于香農信息論,動態抽取含有信息量最多的概念,由系統自動完成計算相關度的方法計算詞對在同一論文中出現的頻率形成共詞矩陣,詞與詞之間的相關度僅與共同出現的頻率有關基于貝葉斯概率論計算概念權重,概念之間的相關度計算與上下文環境以及其他概念具有關聯性
2 基于Autonomy的信息聚類試驗
2.1 數據來源與試驗方法
本研究所采用的試驗數據來自中國科學引文數據庫(CSCD)[4],按照中國圖書館分類法分類號為G250進行檢索,共得到1997-2006年圖書情報類中文文摘數據1 316條#65377;將1 316條文摘數據按照Autonomy系統規定的格式轉化成XML文檔導入系統#65377;
抽取1 316篇論文中的關鍵詞,寫入到系統userdic.txt文件中,作為系統概念抽取時的專業詞表#65377;
系統中檢索詞設置為空值,即對所有數據進行聚類,設定出版時間為“2000年1月-2008年1月”,相關度為“60”#65377;
2.2 試驗結果與分析
2.2.1 試驗結果
聚類結果如表2和圖1所示#65377;表2 圖書情報類文摘數據聚類分析結果
序號標
題文檔數1企業/圖書館知識,本體372企業競爭情報,wto273用戶興趣,個性化,網頁27 續表2
序號標
題文檔數4集成服務,個性化,決策235語義檢索,xml,查詢236xml,檔案,檢索,著錄227企業信息化,cio,cko218圖書情報,期刊論文219情報/情報學學科,文獻學2010主題,標引,檢索,詞1911rdf,發布,檢索,語義1712專利,內涵,建設,高校圖書館1713共享,共建,圖書館,情報1714傳統圖書館,圖書館,職高,館員1415網站鏈接,影響力,期刊1416信息搜索行為,搜索,用戶,科技數據庫網站1317wto,信息化,工業化,戰略1318圖書館,版權,知識產權保護,觀念1319主題,引文分析,情報學,期刊1320實施erp,cims,企業1321圖書情報,興起,網格技術1022jsp,發布,查詢,申報923compendex,實證,數據庫,期刊824xml,信息結構,導航,超文本725ei compendex,embase,檢索6圖1 圖書情報類文摘數據聚類分析信息島圖
(在同一“信息島”上顏色越深表明該主題研究越為熱點;同一信息島中的類簇或信息島之間的距離越近說明主題之間的關聯越大)
2.2.2 專題聚類分析
對表2的聚類分析結果進行進一步分析,可以看出:
(1)企業/圖書館知識,本體
“企業/圖書館知識,本體”是聚類結果中最熱點的主題#65377;近幾年來,無論是企業還是圖書館,都開始重視知識管理和知識服務的研究和探索#65377;企業對自己的資源和知識進行有效的組織和管理,能夠不斷挖掘企業自身的創新點,給企業的生存和發展帶來更大的空間#65377;對圖書館來說,其業務發展正在逐漸的由“信息管理”向“知識管理”轉變,更加注重隱性知識的搜集#65380;整理#65380;存儲和應用,為用戶提供更加深層次的服務,這是圖書館未來發展的趨勢,這方面的研究自然成為近幾年圖書館學研究的熱點之一#65377;
圖書館界有關本體的研究已經開始了一段時間,近幾年研究的重點在于本體的構建和應用方面,如何把本體應用到圖書館的信息組織和檢索系統中去,實現其真正的功能#65377;對照類簇名稱中“本體”閱讀相關的文摘,《面向知識處理的領域本體及其應用研究》[5],《數字圖書館領域本體構建研究——以數字參考咨詢領域為例》[6],《VISION:集成分類法#65380;主題詞表和語義元數據的概念網絡》[7],都是本體的應用實例研究,而不再僅僅局限在理論上的探討#65377;
(2)企業競爭情報,wto
對這一類的論文進行進一步分析,大多屬于關于“獲取企業戰略競爭情報的方法,系統的構建”以及“人際網絡分析”方面#65377;企業競爭情報主題一直以來就是是情報學的熱點問題#65377;值得關注的是,近年來對人際網絡的研究逐漸多了起來,用“人際 情報 網絡”在維普數據庫進行檢索,有38篇文章,發表時間都在2005-2007年的#65377;秦鐵輝等人在2007年發表的文章《競爭情報與人際網絡研究述評》[8]中指出,“近年來,隨著人際網絡理論在各個領域的廣泛應用,競爭情報活動中的人際網絡也引起了國內外學者的關注#65377;”
(3)用戶興趣,個性化,網頁
這一類簇中的文章,主要包括這樣兩類:通過網頁日志或是一些算法對網頁中的用戶行為進行分析,實現搜索引擎或是信息檢索系統的個性化推薦服務;網頁信息的抓取和組織,如《搜索引擎檢索結果的組織技術》[9]#65380;《網站頻道關鍵詞選擇方法研究》[10]等#65377;
隨著用戶信息素質的不斷提高,他們的信息需求越來越趨向多樣化#65377;利用數據挖掘#65380;數據推送#65380;網頁跟蹤#65380;協同過濾等信息技術為用戶提供個性化服務,對龐大的信息進行有效的組織和呈現,不僅是搜索引擎開發商們未來發展的關注的熱點,同時也是數字圖書館不斷努力的方向#65377;
(4)語義檢索,xml,查詢
語義網環境下,對“語義檢索”的研究自然成為研究的焦點#65377;XML#65380;RDF等信息組織的語言和框架如何真正的應用到信息檢索系統中去,也是圖書情報領域研究者比較關注的問題#65377;這一類簇中的論文正是體現了這一特點#65377;
此外,其他類簇所出現的“知識產權保護”等詞也屬于目前圖書情報領域比較熱衷的話題#65377;
2.2.3 主題之間關聯分析
圖1中類簇1,3,4,5,6所包含文獻的研究內容都是有關圖書館服務,信息集成,個性化服務等,主題之間有一定的聯系,因此在它們屬于同一個信息島中的一個熱點區域內;而類簇2同樣屬于熱點研究內容,卻與1,3,4,5聯系相對較少,它與類簇7,17,18的主題相關,主要研究企業的信息化,企業的戰略以及WTO等#65377;
第23和25個類簇形成一個小的“信息島”,與大的“信息島”有一定的距離,說明這兩個主題的研究內容相對比較獨立#65377;類簇23是有關“compendex,實證,數據庫,期刊”,類簇25為“ei compendex,embase,檢索”,這兩個類簇的研究內容都是有關某個特定數據庫的分析和試驗,與大的“信息島”的各個研究主題相關性較小#65377;而這兩個類簇的研究內容之間卻有較高的相關性#65377;
3 討論與結語
通過對CSCD數據庫圖書情報領域中文期刊文摘數據聚類結果的初步分析,結合其他的綜述性文獻的闡述,可以看出,利用Autonomy對這一領域專題聚類的效果基本符合實際情況,能夠初步揭示圖書情報領域近年來的主要研究熱點#65377;這也證明了Autonomy系統所使用的香農信息論和貝葉斯概率論相結合的聚類分析方法對于判斷領域熱點來說是有效的#65377;
同時,Autonomy的可視化顯示功能相對比較強大,不僅能通過同一信息島內研究點顏色的深淺揭示研究熱點,還可以根據信息島之間距離的遠近的變化來觀測主題與主題之間的關聯程度#65377;這一方面比其他的聚類方法更加直觀#65380;清晰#65377;
Autonomy的專題聚類是對樣本論文抽樣進行的,聚類能否進行與樣本量的大小有一定的關系,如果要對某一學科中某一具體主題進行熱點分析,可能由于樣本量不夠而無法進行#65377;因此,系統對某一大的學科領域的熱點分析的效果還比較理想,但是當熱點探測范圍縮小到某一小的主題領域,對某一學科熱點進行進一步的深層次挖掘時,還存在一定的局限性#65377;Autonomy的專題聚類分析只適用于對某一學科熱點的初步揭示,而不適用于對學科熱點進行更加深度的分析#65377;在真正的實際應用中,可以把Autonomy的專題聚類與共詞聚類分析或其他聚類方法結合起來,為情報人員對領域內熱點的進一步分析提供幫助#65377;
參考文獻
[1]鐘偉金,李佳,楊興菊.共詞分析法研究(三)——共詞聚類分析法的原理與特點[J].情報雜志,2008,(7):118-120.
[2]李亦農,李梅.信息論基礎教程[M].北京:北京郵電大學出版社,2004.
[3]Autonomy核心技術說明[S].2008.
[4]中國科學引文數據庫[EB].http:∥sdb.csdl.ac.cn,2008-11-03.
[5]曾慶田,段華,楊紅梅,等.面向知識處理的領域本體及其應用研究[J].情報學報,2006,(6):713-719.
[6]肖洪,余錦鳳.數字圖書館領域本體構建研究——以數字參考咨詢領域為例[J].大學圖書館學報,2006,(6):26-29.
[7]王軍.VISION:集成分類法#65380;主題詞表和語義元數據的概念網絡[J].情報學報,2003,(4):412-418.
[8]秦鐵輝,劉宇,楊薇薇.競爭情報與人際網絡研究述評[J].情報科學,2007,(12):1761-1768.
[9]趙榮,黃燕云,張露.搜索引擎檢索結果的組織技術[J].情報學報,2004,(1):69-72.
[10]索紅光,劉玉樹.網站頻道關鍵詞選擇方法研究[J].情報學報,2007,(2):249-252.