蔡榮嘯 高強 陳剛
揚州大學新聞與傳媒學院 江蘇揚州 225000
自從布魯克斯(B.C.Brooks)在其《情報學基礎》中提出知識地圖這一定義后[1],知識地圖就以其直觀、概括、有針對性[2]等特點贏得了廣泛關注。目前在國內,從技術角度可以將對知識地圖的研究分為三類:一類是以陳強、廖開際、奚建清、林福仁(Fu-ren Lin[3])等為代表的在數據挖掘基礎上進行的知識地圖研究;另一類是以胡元蛟、王昊等為代表的在數據挖掘和語義網絡基礎上進行的知識地圖研究[4];第三類則是以劉彤、時艷琴、蘇新寧(Hsin-Ning Su[5])等為代表的融合社會網絡分析技術的知識地圖研究[6]。
知識地圖雖說有多種定義,但在形式上總離不開利用圖表等可視化手段將紛繁的知識數據進行展示,以達到將知識的時空關系等分析要素更加簡潔地呈獻給研究者的目的。
知識地圖作為將知識可視化的形式之一,首先滿足的應該是針對大量知識數據計算的結果。面對大量的數據,知識地圖工具很難將個性化數據匯總出來并形成面對不同個體的知識地圖。為解決這一問題,本文提出建立知識地圖的系統,此系統的建立是以云計算思想為基礎的。
1)建立分布式數據系統。圍繞解決知識地圖的個性化問題,本文提出建立分布式數據庫系統。傳統的知識地圖是針對無差別的統一的數據進行數據分析與計算的,由于缺少對每個人個性化類別的需求分析,所以只能局限于某一數據中心進行計算,而面對不同領域的研究者,通過傳統知識地圖構成方式所得到的知識地圖,其中包含大量的“垃圾”信息。為解決這一問題,其中一條解決方案就是收集每個人的瀏覽信息,而如果將收集信息并處理信息的工作都交給某一數據中心進行的話,那么處理速度下降和數據量的巨大很有可能導致數據中心的崩潰。
因此,若將互聯網中每個終端的個性化信息收集和處理能力作為數據中心的一部分,那么上述難題將得到有效解決。圍繞這一方法可建立一個關于知識地圖的分布式的數據系統,此系統包括以下幾部分。
①數據中心。數據中心負責對知識的匯總以及分析計算工作。此部分是通過收集并處理所有的知識信息,通過特定的算法將匯總的信息進行分析挖掘,得到知識間的關系,并以數據的形式進行保存。之所以使用數據的形式進行保存,是避免在形成知識地圖后,由于新加的個性化信息不能表現在知識地圖中而導致的重復計算、浪費時間。
②云端數據。借用云計算思想,所有處在互聯網中的計算機都構成了這個網絡中的一個端點。處在終端端點的數據是指將研究者在研究過程中所涉及的數據進行匯總與分析,得到研究者所涉獵的學科范圍、關注的知識內容等;而處在中端端點的數據是指根據不同終端分析的學科范圍數據按照學科類別歸納匯總的數據。例如:有4個終端,其中1、4號終端數據為教育學范疇內的,而2號終端數據是化學范疇內,3號終端數據是哲學范疇內,則可以將1、4號劃歸在某專門處理教育學的中端節點上,并由此節點專門對教育學知識進行計算、分析;同理,2號與3號終端數據則分別劃歸在化學知識中端與哲學知識中端節點進行計算、分析(具體如圖1所示)。

圖1 云端數據分布圖
2)建立統一的知識地圖系統平臺。為最后整合各終端的知識數據,需要統一的數據處理格式,那么要存儲統一的數據格式且在用戶使用軟件的過程中存儲,則必須使用統一的系統平臺。
作為知識地圖系統平臺,它有以下作用:首先,能夠呈現給研究者想要的反映知識間關系的圖表,這一作用就是知識可視化的結果;其次是檢索功能,即根據云端數據與數據中心數據的匯總計算后得到的知識間的關系。此檢索功能有兩個目的:一是根據研究者研究方向提供給研究者與檢索詞相關的其他知識間的關系圖表;二是根據研究者所輸入的檢索詞與研究者選擇的圖表中的知識,建立針對研究者本人的知識情況匯總。
IBM公司曾對于云計算這一概念從3個層次進行了定義,分別是基礎設施即服務(IaaS)、平臺即服務(PaaS)、軟件即服務(SaaS)。從上述定義可以看出,云計算實質上就是為用戶提供服務,而且這種服務在用戶來看是只針對他個人的。因此,本文要實施的個性化知識地圖系統的構建,云計算思想是一種較好的達成目的的方法。
1)基礎設施即服務(IaaS)。在云計算中,基礎設施指的主要是硬件設備,為驗證本文觀點,筆者所使用的硬件設備如下:
①一臺臺式機:2 G內存,Intel i5處理器,操作系統是Windows 7,用來作為部署知識地圖系統的服務器。除此之外,還需要利用VMware軟件部署一臺虛擬機,如使用Cent OS虛擬機,通過部署虛擬機相當于為該知識地圖系統提供了硬件服務系統。
②一臺便攜式筆記本:2 G內存,Intel i3處理器,作為客戶端測試系統。
③4口的思科有線路由器,網線2根。
2)平臺即服務(PaaS)。該層位于基礎設施層上層,主要是為系統進行并行計算、數據庫的分配調用提供硬件資源。該平臺包括虛擬機的Cent OS系統和服務器的Tomcat服務器等。
3)軟件即服務(SaaS)。軟件即服務處于PaaS層的上層,主要是指用戶所使用的軟件,在本文所指的知識地圖系統中即通過IE瀏覽器看到服務器通過Tomcat所部屬的知識地圖系統軟件。
4)數據安全(Security)。數據的安全性是網絡時代不得不面對的一大問題,在云計算中由于數據量的龐雜,數據的安全性則尤為突出。為使該系統符合安全性要求,在該系統中使用賬戶登錄方式可在一定程度上滿足安全性要求,即用戶信息只存儲于自己賬戶的數據庫中,其他賬戶的用戶看不到。
5)數據資源供應(Provision)。筆者為實現數據資源的豐富性,利用Java語言從CNKI數據庫中獲取了《中國電化教育》《電化教育研究》《遠程教育雜志》《中國遠程教育》《現代遠程教育研究》5本雜志近10年所刊登的文章。由于所獲取的文章中知識量太大,為實驗驗證,本文均采用文章中的關鍵詞作為知識進行知識地圖的繪制。
本系統為滿足知識地圖系統對用戶個性化數據的需求,將采用對平臺的水平化集群的方式,即在臺式機及其虛擬機中分別部屬Tomcat服務器,同時利用Apache Tomcat connecter對兩個Tomcat服務器進行均衡負載,使得虛擬機能夠存儲某個用戶的個性化信息,而臺式機則能對數據進行匯總和分派。
其中,workers.listoperties文件的基本配置如下:

在上述操作的基礎上,要實現數據的個性化分布及其計算,則應對不同數據分別進行計算。因此,筆者在虛擬機上進行了hadoop架構,并可以根據hadoop功能對本地數據進行讀取、計算以及記錄。
準備工作一切就緒,下面進行系統的測試工作。
1)在便攜式筆記本上登錄本地Tomcat部署的網頁。
2)假設用戶已經登錄,在輸入關鍵詞的文本框中輸入“開放性”,點擊“知識發現”按鈕,得到“開放性”關鍵詞的知識地圖,如圖2所示。
3)此時,進入虛擬機,打開用戶賬戶保存數據的xml文件,可以看到用戶所檢索過的數據將被有選擇地保留下來。

圖2 “開放性”關鍵詞的知識地圖

圖3 云端經用戶干預后的知識地圖
為反映云端用戶的作用及云端對用戶數據的記錄作用,作者通過查詢關鍵詞“開放性”,連續點擊與之相關的關鍵詞“自主性”,這表示多次點擊“自主性”關鍵詞,與中心關鍵詞“開放性”在云端是非常有意義的,見圖3。將圖2與圖3對比后發現,關鍵詞“自主性”離中心關鍵詞“開放性”更近了,這可以充分證明本文觀點的價值性。
隨著時代的進步、知識量的劇增,為研究者或決策者提供恰當的知識地圖能夠更加有效地提高工作效率。而傳統的知識地圖雖然能夠體現知識的關系,卻很難根據用戶特點提供個性化的知識地圖。本文通過采用云計算思想將知識地圖與云計算進行結合,產生更加個性化的新的知識地圖。
除上述實驗展示的效果外,針對CNKI中知識地圖的呈現方式,還可以如本文所提到的根據期刊是否是核心期刊等信息,給讀者呈現出以期刊的重要性為第三維向量的三維立體地圖,這樣的知識地圖將更加清晰與準確,這也將是筆者將來的研究方向。
[1]陳強,廖開際,奚建清.知識地圖研究現狀與展望[J].情報雜志,2006,25(5):43-46.
[2]劉勘,周麗紅.面向專家的知識地圖研究[J].情報資料工作,2012(2):18-19.
[3]Fu-ren Lin, Chih-ming Hsueh. Knowledge map creation and maintenance for virtual communities of practice[J].Information Processing and Management,2006(2):551-568.
[4]胡元蛟,王昊.面向CSSCI的學者知識地圖構建與分析[J].現代圖書情報技術,2011(3):38-44.
[5]Hsin-Ning Su, Pei-Chun Lee. Mapping knowledge structure by keyword co-occurrence: a first look at journal papers in Technology Foresight[J].Scientometrics,2010(1):65-79.
[6]劉彤,時艷琴.基于社會網絡分析的專家知識地圖應用研究[J].情報理論與實踐,2010(3):68-71.