郭柯娜,唐裕婷,張思原
(四川大學計算機學院,成都 610065)
具有“香格里拉”之稱的喜馬拉雅區域歷史悠久,文化遺產豐富多樣,是世界上非常獨特、神秘而具有吸引力的區域之一。早在18世紀[1],喜馬拉雅的生態和人類文化就已成為西方人類學關注和研究的重要領域。直至今天,隨著大量關于喜馬拉雅區域的文獻的相繼產生,構建一個針對喜馬拉雅文獻的多媒體數據庫,并利用知識圖譜對文獻進行分析對今后進一步探索、研究喜馬拉雅區域是有必要且意義重大的。
隨著網絡的發展以及計算機的普及,“數位文化”[2-3]的概念被提出,人們開始使用新技術去展現過往文字所不能負載的成果,借助數位科技進行人文研究,使得文獻能得以更有效地分析以及呈現。喜馬拉雅多媒體數據庫是喜馬拉雅區域研究文獻與數位技術的有效結合,將為對喜馬拉雅區域進一步的科學研究提供切實的有價值的參考。
喜馬拉雅多媒體數據庫由英國劍橋大學與四川大學合力構建,引用與共享了劍橋大學康和計劃及其合作機構所藏有的關于喜馬拉雅地區的多媒體數字資源。
喜馬拉雅多媒體數據庫包括文獻檢索、相關文獻推薦、文獻檢索結果空間可視化、文獻計量分析、知識圖譜展示等多個功能。
作為喜馬拉雅多媒體數據庫的一部分,利用知識圖譜等對文獻的可視化分析具有重要作用。在喜馬拉雅多媒體數據庫中,該部分集成為多媒體數據庫中的“知識視圖”模塊,主要展示對文獻的統計分析和圖譜結果。
知識圖譜[4]是結構化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關系。其基本組成單位是“實體-關系-實體”三元組,實體間通過關系相互聯結,構成網狀的知識結構。
知識圖譜,自2012年由Google正式提出[5]以來,已廣泛運用于包括醫療[6]]、金融[7]、旅游[8]等各種垂直行業[9],并很好地為各個領域的研究提供了切實參考。
目前,針對喜馬拉雅區域文獻的知識圖譜分析研究十分缺乏,喜馬拉雅多媒體數據庫為喜馬拉雅文獻分析提供了數據支持。利用知識圖譜技術對喜馬拉雅文獻進行可視化分析,對揭示喜馬拉雅區域研究的動態發展規律具有重要意義。
現有的知識圖譜構建多數依賴于某些軟件工具[10],如 CiteSpace[11]、Pajek、CNKI等。這些工具都對數據格式有一定的要求,或是只針對某些特定數據庫中的文獻。如CiteSpacey要求數據格式必須為WOS中的TXT格式或用軟件轉化了的CSSCI格式,且主要對CNKI、SCI等數據庫中的文獻進行分析。
對于喜馬拉雅多媒體數據庫,現有的知識圖譜構建工具無法直接使用,因此需要利用自然語言處理的相關知識以及可視化技術進行構建。
知識圖譜的構建過程見圖1,主要分為數據獲取、數據處理、生成知識圖譜3大步驟。

圖1 知識圖譜構建流程圖
本文的數據來自喜馬拉雅多媒體數據庫平臺。共選取了其中2544篇期刊文獻,針對這些期刊文獻在數據庫中存儲的作者、關鍵詞、摘要元數據進行統計分析,并構建知識圖譜。
在進行統計分析的過程中,需要從喜馬拉雅多媒體數據庫中獲取所需的內容,包括文獻的作者、關鍵詞、文獻摘要內容等。然后利用自然語言處理的相關方法進行處理,再將處理后的數據以知識圖譜的形式展現出來。
文獻作者、關鍵詞以及文獻摘要都是從喜馬拉雅多媒體數據庫中直接讀取元數據獲取,對于獲得的元數據在根據構建的知識圖譜的需要進行進一步處理。對文獻作者主要進行作者姓名規范統一,并統計姓名出現的次數作為作者的發文數。對于關鍵詞元數據,需要去掉關鍵詞中包含的無關符號,并統計關鍵詞出現的次數。對于摘要元數據主要進行大寫變小寫,過濾掉數字、標點符號以及停用詞等操作(由于所選文獻皆為英文文獻,因此跳過了分詞過程)。
(1)喜馬拉雅區域研究者合作分析。研究者合作分析指在該領域一段時間內研究者在某一研究方向進行合作并發表文章的情況。統計2544篇文獻,共4793名研究者(部分文獻作者匿名),多數作者發文量在2篇以內。其中有978名研究者以唯一作者的身份發表文獻,如 Schubert,J(13篇),Wylie,Turrell V(12篇)。

圖2 研究者合作局部圖
圖2展示了發文數排名前100的作者間合作關系,圖中每個節點代表一個作者,節點大小展示作者發表的文獻數量多少,節點間的邊表示作者間的合作關系,邊越粗表示合作越頻繁。
(2)喜馬拉雅區域研究基于給定關鍵詞的共現網絡分析。關鍵詞是一篇文獻中表達文章主題概念的詞語,給定的關鍵詞相對利用自然語言處理方法從文本中抽取的關鍵詞更為規范。
關鍵詞共現網絡指根據關鍵詞共同出現的情況構建的關鍵詞關系網絡,展現了關鍵詞與關鍵詞之間的關聯和結合情況。通過對關鍵詞共現網絡的分析,可以得到相關研究的主題分布及研究熱點變化。

圖3 關鍵詞共現局部網絡
圖3以喜馬拉雅多媒體數據庫中存儲的關鍵詞元數據為基礎,根據關鍵詞的共現情況得到,每個節點代表一個關鍵詞,節點大小表示關鍵詞的出現的頻繁程度,節點之間的邊表示關鍵詞見的共現關系,邊的粗細代表連接的兩個關鍵詞共同出現的頻繁程度。的發展具有重要意義。
(3)喜馬拉雅區域研究基于TF-IDF權重的關鍵詞聚類包圖分析。TF-IDF是衡量某個詞對文檔重要性的指標。其計算公式為(1),其中wij表示詞wi在文檔j中出現的次數,dj表示文檔j的長度,N表示文檔總數,dwi表示包含詞wi的文檔數目:

表示某個詞在一篇檔中出現的次數越多且在其他文檔中出現的次數少,則說明該詞對區分該文檔相對重要。根據TF-IDF權值抽取得到的詞語不完全同于人給定的關鍵詞(元數據中的關鍵詞),人為給定的關鍵詞是基于人對文章的理解,而通過TF-IDF能更直接地從文章詞頻的角度反映文獻的研究主題與趨勢。由于摘要作為文章內容的概括,為了減少噪聲,本文選擇使用TF-IDF從摘要而不是從全文抽取關鍵詞。針對每篇摘要首先進行預處理,然后計算文本中每個詞的TF-IDF權值。選取TF-IDF權值最高的六個詞作為關鍵詞,然后選取出現頻次前100的關鍵詞,用詞向量表示,并使用kmeans++算法進行聚類,然后構建關鍵詞聚類包圖。
kmeans++算法是在kmeans算法的基礎上,針對kmeans隨機初始seeds可能影響聚簇效果的現象進行改進得到的算法。其主要思想與kmeans相同,即以空間中k個點(seeds)為中心進行聚類,對最靠近他們的對象歸類。通過迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結果。kmeans++基于初始的聚類中心之間的相互距離要盡可能的遠的思想來選取seeds。
關鍵詞聚類包圖根據詞語的語義信息,將語義相似的關鍵詞聚到一起,再將聚類結果以打包圖的形式可視化展現。每一個pack(包)里面的詞語在語義上相似,根據聚類打包圖可以對文獻主題進行概括性分析。

圖4 關鍵詞聚類打包圖
在圖4中,共10個pack(包),每個pack代表一個簇,簇的個數是聚類時人為給定。由簇3,包含了喜馬拉雅區域研究的主要地域,如不丹、尼泊爾、西藏等。由簇1,喜馬拉雅地區研究對象主要是孩子、婦女、農民、病人、學生等,對應的研究內容有如簇5的社會人文環境,簇7的地理類研究等。
對喜馬拉雅文獻進行知識圖譜分析,將相關研究文獻顯式或隱含的信息以知識圖譜的形式展示出來。有助于人們直觀地從大量文獻數據中了解喜馬拉雅研究現狀、獲取潛在的有用信息,對以后的研究具有重要的參考意義。
在利用文獻以知識圖譜的形式實現對喜馬拉雅區域研究的過程中,選取的是喜馬拉雅多媒體數據庫中的2544篇文獻,可能存在文獻數據代表性不足的缺點。此外由于直接從pdf格式的文獻中抽取所要的信息具有一定的難度,且得到的信息可能含有大量噪聲,因此本文多是使用喜馬拉雅多媒體數據庫中存儲的元數據。而元數據則導致了部分數據不可獲得的情況。
此外,本文的關鍵詞共現關系網絡是依據共現頻次構建的,下一步工作可以根據語義相似度進行構建。
參考文獻:
[1]沈海梅.西方人類學領域的喜馬拉雅研究學術史[J].西南民族大學學報(人文社會科學版),2015(8).
[2]翁稷,Ching-chih Che,林滿紅.數位人文在歷史學研究的應用[M].臺灣:國立臺灣大學出版中心,2011.
[3]金觀濤,劉昭麟,項潔.數位人文要義:尋找類型與軌跡[M].臺灣:國立臺灣大學出版中心,2012.
[4]劉嶠,李楊,楊段宏,等.知識圖譜構建技術綜述[J].計算機研究與發展,2016,53(3).
[5]AMIT S.Introducing the Knowledge Graph[R].America:Official Blog of Google,2012.
[6]張觀林,歐陽純萍,鄒銀鳳,等.知識圖譜及其在醫療領域的應用[J].湖南科技學院學報,2016,37(10).
[7]王萍,詹川.互聯網金融研究文獻的知識圖譜分析[J].情報探索,2016(1).
[8]陳潔,吳琳.國內旅游公共服務研究的文獻計量和知識圖譜分析[J].旅游論壇.2015,8(6).
[9]徐增林,盛泳潘,賀麗榮,等.知識圖譜技術綜述[J].電子科技大學學報.2016,45(4).
[10]肖明,邱小花,等.知識圖譜工具比較研究[J].圖書館雜志,2013(3).
[11]陳悅,陳超美,等.CiteSpace知識圖譜的方法論功能[J].科學學研究,2015,33(2).