李迎迎 鄭春厚
(曲阜師范大學信息技術與傳播學院,山東日照276826)
隨著現代信息技術的發展,人類已經步入知識型社會,而這種知識型社會是直接建立在知識資源的開發、獲取和利用的基礎上的,因此知識資源的開發利用越來越受到社會和廣大學者的關注。Web2.0環境下,各種網絡技術、通信技術以及存儲技術的迅速發展,使得信息和知識急劇膨脹,造成了信息泛濫、知識無序。而泛濫無序的知識不僅不利于知識資源的利用,反而增加了知識利用的難度,加大了知識增長與利用的矛盾[1]。基于此,有必要對知識進行有效組織,以促進知識資源地充分挖掘與合理利用。與此相關的“知識組織”已日益成為學者關注的熱點話題。
“知識組織”的概念早在1929年美國圖書館學家布里斯(H.E.Bliss)就已經提出了,是指為促進或實現主觀知識客觀化和客觀知識主觀化而對知識客體所進行的諸如加工、整理、引導、揭示、控制等一系列組織化過程及其方法。目前國內有幾種比較典型的觀點:蔣永福認為,知識組織是以知識為對象的諸如整理、加工、表示、控制等一系列組織化過程及其方法[2]。王知津認為,知識組織的任務是尋求抑制信息污染知識存貯無序化惡性循環的措施,其主要目標是對知識進行整序和提供知識,既要處理大量的現有知識,又要減少知識的增長[3]。國外匈牙利賽格德大學的研究人員認為,知識組織的理論和實踐同人類知覺有著密不可分的關系,應尋找契合用戶直覺的最佳的知識組織系統設計方案,提出可視化是將用戶直覺融入知識組織系統設計的有效方式[4]。Birger Hj?rland認為知識組織是利用不同的方法和研究習慣的圖書信息科學(LIS)的子類[5]。本文認為高效的知識組織可以促進知識的挖掘與利用,減小知識增長與利用之間的矛盾,了解知識組織領域的研究熱點便于知識組織的發展與改進。
近年來,關于知識組織的綜述性研究主要是針對知識組織領域的文獻進行理論層次的分析,如宋朋和張秀蘭是對知識組織的研究范圍、知識組織的原理和原則、知識組織的方法、知識組織的本體論、元數據、知識組織技術的研究、語義Web等方面進行了綜述[6],觀點過于主觀,缺乏使用客觀的、定量分析方法對知識組織研究內容進行概述和分析。張文亮和郭金婷的研究亦是通過主觀的理論分析,總結出目前知識組織的研究熱點,缺乏客觀定量的分析[7]。
基于上述問題,本文采用共詞分析方法,利用SPSS統計分析軟件,以CNKI全文數據庫作為數據來源,對國內知識組織領域文獻進行客觀定量分析。以期從文獻計量學角度對國內知識組織領域研究進行概述,進而揭示國內知識組織領域的研究熱點和發展趨勢。
共詞分析法是利用文獻集中詞匯對或名詞短語共同出現的情況,確定該文獻集中各主題之間的關系。一般認為詞匯對在同一篇文獻中出現的次數越多,則代表這兩個主題的關系越緊密。由此,通過主題詞兩兩之間在同一篇文獻出現的頻率,即主題詞之間的共現關系,便可形成由這些詞對關聯所組成的共詞網絡。根據網絡內節點之間的親疏關系,反映詞對之間的聯系,在此基礎之上,進行聚類分析,得到不同的類團,進而分析該領域下的結構變化[8]。
共詞分析法主要有以下幾個步驟:第一,確定高頻關鍵詞;第二,構建關鍵詞共詞矩陣;第三,轉化為關鍵詞相關矩陣和相異矩陣;第四,運用統計分析軟件進行多元統計分析,如因子分析、聚類分析以及多維尺度分析等;第五,對結果進行深入分析。本文按照上述五個步驟,對國內知識組織領域文獻進行統計分析,并對最終的分析結果進行理論闡述。
關鍵詞是共詞分析研究方法的基本單元,本研究所使用的關鍵詞來源于CNKI中國知網數據庫中的中國學術期刊網絡出版總庫,檢索“主題”為“知識組織”的期刊論文,時間限定在2001至2011年,選擇“精確”匹配,檢索結果顯示共有1718篇文獻,剔除無關鍵詞文獻、非學術論文以及不相關論文,得到有效篇數1535篇,總體產出情況如圖1所示。

圖1 2001-2011年國內知識組織論文產出情況圖
從圖1可以看出,有關知識組織的發文數量呈每年遞增趨勢,在2005和2007年有所下降,在2008到2011年形成了研究的高峰期,說明知識組織越來越受到學者們的關注和重視。
2.3.1 高頻關鍵詞獲取
關鍵詞在簡單明了地揭示文獻主題內容同時也是文章的精髓,關鍵詞的頻次和活躍程度代表了該領域理論和技術發展的方向以及它們的成熟度。經統計,在“知識組織”領域中,關鍵詞為2316個,關鍵詞總頻次為5396,篇均關鍵詞為3.5個。
由于檢索主題詞為“知識組織”,其出現頻次必然過多,對研究現狀和熱點的描述沒有太大意義,因此將“知識組織”去除。同時,合并一些同義不同詞的關鍵詞,如“本體”、“本體論”、“領域本體”和“ontology”合并為“本體”,“圖書館學”、“圖書情報學”和“情報學”合并為“圖書情報學”,去除停用詞、無意義詞等。最終選取頻次大于等于10的54個高頻詞作為分析對象,如表1所示。可看出,知識管理、圖書館、本體、數字圖書館、圖書情報學、知識服務等是知識組織領域的高頻熱點詞匯。

表1 2001-2011年國內知識組織研究高頻關鍵詞
2.3.2 構造矩陣
由于以上選取的是“知識組織”文獻中出現頻次較高的詞,一定程度上可以代表知識組織領域的研究現狀和熱點,但往往某一研究熱點會涉及其他相關研究熱點與知識點。同時,不同的學者對關鍵詞的把握程度也會有所差異。因此,只是通過關鍵詞的頻次反映研究熱點是不科學的,這就需要對選擇的關鍵詞進行相應的數據處理。本文利用浙江大學信息資源管理研究所設計的文獻題錄信息統計分析工具(Statistical Analysis Toolkit for Informatics,SA-TI),將高頻關鍵詞進行兩兩配對,統計在同一篇文章中共同出現的次數,形成了54×54的共詞矩陣。
由于關鍵詞自身頻次的大小直接決定共現頻次的相對值,為了消除自身頻次所帶來的差異,以揭示關鍵詞之間真正隱含的關系,本文利用Ochiia[9]相關系數將共詞矩陣轉換為相關矩陣。

其中,Cij為A、B兩詞共同出現的次數,Ci為A詞出現的頻次,Cj為B詞出現的頻次,如圖書館與知識管理的 Ochiia系數298664。相關矩陣中的數據表示兩關鍵詞之間的相關程度,數值越大表示兩詞之間的距離越近、相關性越大;相反,數值越小表示兩詞之間的距離越遠、相關性越小。例如知識管理與圖書館的Ochiia系數為0.298664,知識管理與知識的Ochiia系數為0.071414,這就說明知識管理與圖書館的相關性大于知識管理與知識的相關性。
由于關鍵詞較多,在相關矩陣中的零值較多。為方便進一步處理,用“1”與相關矩陣中的數據相減,得到相異矩陣。在相異矩陣中,兩關鍵詞之間的數值越大,表示關鍵詞之間的距離越遠、相關性越小;相反,數值越小,表示兩次之間的距離越近、相關性越大。
因子分析是用盡可能少的因子去描述眾多指標或影響要素間的關系。利用因子分析方法可以將多個影響因子壓縮為幾個少數主要影響因子,即相關性比較密切的幾個變量歸為一類,每一類稱為一個公共因子,這樣可以用幾個公共因子反映原始信息的大部分內容。可根據因子得分值和累計貢獻率,在因子所構成的空間中把研究對象的變量點畫出來,從而達到客觀分類的目的,并以此作為聚類分析的依據[10]。
利用SPSS19.0對關鍵詞的54*54的共詞矩陣進行因子分析,首先將其轉化為斯皮爾曼相關系數矩陣(Spearman),將數據導入SPSS中,利用主成分分析法、協方差矩陣、基于特征值大于1與最大平衡值法進行因子分析,分析得到的解釋總方差如表2所示,表2中列出了部分主成分,它們按照特征值由大到小排列。按照“特征值大于1”和“累計貢獻率達到85%以上”的原則,由此可知,進行聚類分析時,可將本文研究的高頻關鍵詞分為6-7類。由因子分析碎石圖驗證,可知分為6-7類較為合理,如圖2所示。

圖2 2001-2011年國內知識組織關鍵詞因子分析碎石圖

表2 2001-2011年國內知識組織關鍵詞因子分析解釋的總方差
聚類分析是根據事物的特征對其進行分類,根據個體之間相似程度的大小,相似程度較大的個體聚為一類,把另外一些相似程度較大的個體聚為另一類,然后把關系密切的類聚到一個小類團中,直到把所有個體和類團都聚合完畢,形成一個由小到大的分類系統[11]。如根據地理位置和特征,每個國家都屬于一個大洲,如中國、印度等屬于亞洲,美國、加拿大等屬于北美洲,最終構成了七大洲,七大洲又組成了全球國家,形成一個從小到大的系統。本文中的聚類分析是根據SPSS軟件中的平方Euclidean距離作為分類的依據,依次進行聚類。
將54*54相異矩陣導入SPSS中,選擇平方Euclidean距離作為度量標準,類間距離的計算方法采用組內連接。根據因子分析的結果,指定聚類數為6-7類,通過關鍵詞的直觀理論分析以及聚類分析的結果,本文認為將54個高頻關鍵詞分為6類比較合理,聚類結果如圖3所示。這6類分別為:知識組織對象研究、知識組織服務研究、知識組織發展研究、知識組織技術研究、知識組織體系研究和知識組織系統研究。

圖3 2001-2011年國內知識組織關鍵詞聚類分析圖
多維尺度分析通過低維空間展示研究對象之間的聯系,并利用平面距離反映研究對象之間的相似度,多維尺度分析法將多維空間的研究對象簡化到低維空間進行定位、分析和歸類,同時又保留對象間原始關系的數據分析方法。在多維尺度分析結果中,被分析的個體以點狀分布,具有高度相似性的個體聚集在一起,形成一類,越在中間的個體越核心[12]。
在SPSS中以相異矩陣為基礎進行多維尺度分析,結合因子分析和聚類分析的結果,多維尺度圖如圖4表示。

圖4 2001-2011年國內知識組織關鍵詞多維尺度分析圖
根據SPSS多元統計分析的結果,將知識組織領域的研究分為6類。
在該類中,共包括4個高頻關鍵詞,分別是:圖書情報學、研究對象、綜述以及圖書館學理論。知識組織的研究對象,在圖書情報學領域已經不僅僅是知識組織概念、理論和方法的研究。本類中的知識組織對象研究,是理論層次上的綜述性研究,它涵蓋了知識組織領域的多個方面,如:技術、應用、體系等,尤其是隨著Web2.0技術、語義網技術以及網格技術的出現,知識組織的研究對象應該更加具有多元性和針對性。該類涉及到的4個高頻關鍵詞,雖不是研究熱點,但卻是知識組織中不可或缺的一部分。由于學者們對知識組織領域中的研究進行了細致劃分,而對知識組織綜述性的研究有所欠缺,如果將知識組織的研究對象進行明確界定,便于學者針對具體的研究對象進行深入研究。
該類涉及到12個高頻關鍵詞,占所有高頻關鍵詞的22.2%,其中,知識管理、圖書館、知識服務、知識經濟、知識創新等關鍵詞的頻次都在40以上,知識管理和圖書館是第一和第二高頻關鍵詞,該類團的關鍵詞總頻次占所有關鍵詞總頻次的41.8%,說明此類研究是知識組織領域研究的熱點問題。在當今網絡信息化時代,知識組織領域的服務研究主要是網絡環境下面向知識管理的服務,包括圖書館管理、信息管理、知識管理,而知識管理又包括知識經濟、知識服務以及知識創新等多個方面。但在面向服務的知識組織研究中,用戶沒有作為高頻關鍵詞出現在此類團中,說明目前知識組織服務缺乏對用戶方面的相關研究,用戶是服務的最終受益者,所以應該加強對用戶方面的探討和研究。
知識組織的發展研究屬于基礎理論的研究范疇,是理論研究的重要組成部分,該類涉及到7個高頻關鍵詞,比較有代表性的是知識共享、隱形知識、企業以及知識轉移等。通過發展趨勢的研究,學者可以了解研究領域或學科的發展變化以及發展方向等。本文中的多元分析結果顯示,知識組織領域的發展研究逐漸擴展到企業領域中的知識遷移方面,知識組織已經不僅局限在圖書情報領域,正在向其他領域延伸,這種延伸包括隱性知識的轉化,知識的共享遷移等。
該類涉及到的9個高頻關鍵詞顯示,知識組織領域中目前使用的技術主要包括專家系統、故障診斷、知識庫技術、數據庫技術、知識檢索技術、知識構建技術等。應該拓展知識組織領域技術的研究范圍,將其他領域的先進技術遷移到知識組織方面,促進知識組織技術和理論的共同發展。
該類涉及到15個高頻關鍵詞,占高頻關鍵詞的27.8%,是所占比重最大的一類,說明知識組織體系研究是知識組織領域的又一研究熱點,代表關鍵詞有本體、分類法、敘詞表、元數據、主題圖、知識地圖等。知識組織體系是用于進行知識組織的各類規范和方法的統稱,是獲取、利用知識的重要手段。由于知識組織體系涉及到的內容比較寬泛,所以在知識組織體系的研究中可能也包括知識組織理論與技術結合的相關內容[13]。目前知識組織體系在語義網的背景下,正趨于網絡化方向發展。
該類涉及到7個高頻關鍵詞,代表關鍵詞有知識組織系統、知識導航、主題地圖等。知識組織系統的核心在于構建概念(知識)屬性的形式化描述框架以滿足基于及其理解的信息處理和知識管理的功能需求并實現不同系統之間不同層面上的互操作。國內在知識組織系統的研究尚處于初級階段,沒有形成核心的可視化系統,期望對知識組織系統理論的研究可以形成集資源、技術、檢索、導航等多方面為一體的系統。
本文以CNKI數據庫中2001-2011年國內知識組織領域的文獻為研究對象,提取其高頻關鍵詞,利用共詞分析方法進行可視化分析,發現了國內知識組織領域的主要研究內容:知識組織對象研究、知識組織服務研究、知識組織發展研究、知識組織技術研究、知識組織體系研究和知識組織系統研究,并對各研究主題進行了進一步的分析與探討。通過共詞分析方法的應用及領域主題的分析,揭示了國內知識組織領域不同主題之間的相互關系,比較清晰系統地描繪國內知識組織領域的研究現狀和研究熱點,以期為進一步研究提供借鑒。
〔1〕 王知津.從情報組織到知識組織[J].情報學報,1998,03:71-75
〔2〕 李秀云.網絡環境下的知識組織研究[J].中國圖書館學報,2002,05:35 -38
〔3〕 蔣永福.論知識組織[J].圖書情報工作,2000,06:5-10
〔4〕 Barat,A.H.Human perception and knowledge organization:visual?imagery[J].Library Hi Tech,2007,3:338 -351
〔5〕 Hj?rland,B.Facet analysis:The logical approach to knowledge organization[J].Information Processing and Management,2012,10:1-13
〔6〕 宋朋,張秀蘭.我國最近十年知識組織研究的新進展[J].圖書館學研究,2010,18:7 -11
〔7〕 張文亮,郭金婷.近5年我國知識組織研究綜述[J].圖書館學研究,2012,02:2 -5+11
〔8〕 湯建民,余豐民.國內知識圖譜研究綜述與評估:2004-2010年[J].情報資料工作,2012,01:16-21
〔9〕 張玉,郭會雨,陳建青.我國數據挖掘研究現狀分析——基于共詞分析視角[J]. 情報科學,2011,10:1589-1593
〔10〕 付鑫金,方曙,龐弘燊.基于共詞分析的我國情報學博碩士學位論文研究熱點分析[J].情報科學,2011,11:1722-1725
〔11〕 張勤,馬費成.國外知識管理研究范式——以共詞分析為方法[J]. 管理科學學報,2007,06:65-75
〔12〕 鐘偉金,李佳.共詞分析法研究(一)——共詞分析的過程與方式[J].情報雜志,2008,05:70-72
〔13〕 宋文.知識組織體系語義互操作研究[J].圖書館論壇,2012,06:117 -121