王祎珺 高俊平
(1.西南石油大學網絡與信息化中心,四川成都 610500;2.西南石油大學研究生院(一流學科建設辦公室),四川成都 610500)
領域知識圖譜在學習中具有重要的作用,對學習者學習領域知識、了解知識發展脈絡與演進關系具有重要的指導意義[1]。隨著互聯網技術的發展,各行各業的數據信息量呈井噴式增長。網絡信息數據具有數量龐大、內容豐富、類型多樣、流動性強、無序性大的特點,因此,需要挖掘出領域知識間所隱含的特殊的某種關系或聯系,而領域知識間的演化關系對于協助梳理領域知識的前序和后續邏輯關系具有重要意義。利用領域知識演化關系抽取的研究[2],所得到領域知識的演化關系三元組,可以構建領域知識圖譜提供邏輯關系,為學習者了解知識的發展進程提供了方便。但是,對于一個新興學科,并不能揭示該領域中對學習者具有重要指導意義的核心概念或知識。針對這一問題,本文提出基于PageRank的領域知識圖譜核心概念識別方法,并驗證了該方法的可行性。
知識圖譜作為一門新興研究,知識圖譜的構建主要是以引文分析與共引、耦合網絡、詞頻分析與共詞網絡、社會分析與科研合作網絡理論為基礎。知識圖譜的應用為科研、教育、社會問題解決領域帶來了便利。
但是對于新興的知識圖譜,需要從中識別蘊含豐富的有價值的知識或概念,給學習者的學習提供指導。在情報科學中,有類似識別具有情報價值主題的研究。殷沈琴等[3]根據時間序列進行分析,揭示其研究的發展趨勢和方向。唐果媛等[4]以關鍵詞頻次和共現頻次量化計算為基礎,通過計算主題相似度,來分析學科主題的演化軌跡。葉春雷等[5]利用LDA模型進行優化,實驗證明能夠有效提升識別效率。Martin提出利用文本中抽取的術語來構建概念圖,克服了向量空間模型中關鍵詞獨立的缺陷,較基于特征和基于結構的知識發現更優[6]。基于頻次、詞典的方法是最簡單、使用最廣泛的主題識別方法,但僅根據主題詞的頻次和分布情況進行識別,并未考慮主題詞間的關聯,難以全面揭示文本中蘊含的主題信息。

表1 點度中心性前5數據結果
知識圖譜是一種重要的可視化分析工具,以圖結構的模式,直觀、清晰地展示其中結點和邊對應的對象及關系。隨著信息抽取技術的發展,如何準確識別文本主題重要度一定的必要性。所以,根據中心度來區分主題的重要性,進而識別出核心主題以及主題之間的結構關系成為了可能。
PageRank算法是通過分析網絡的鏈接結構來獲得網絡中網頁的重要性排名,其借鑒了傳統引文分析思想[7]。詳細的,設網頁 p的頁面重要度為 P R(p),Ti為指向網頁 p的其他頁面,其中, i = 1 ,2,...,n ,設C(Ti)為網頁 Ti向外指出的鏈接數目。可以得出網頁 p的 PR值是。改進后的PageRank算法提出設定基尼系數α為0.85。所以,一個網頁p值可以由下式表示: P R(p ) = ( 1- α ) + α。
本文先根據基于CRF的句子層面上關系抽取算法,抽取出句子中包含的演化關系三元組對象[2],再利用基于以PageRank的知識圖譜中核心概念識別算法,識別知識圖譜中的核心概念。
知識圖譜核心概念識別主要有5個步驟:
(1)參數構建:利用句法分析函數對句子成份進行處理,解析句法結構;(2)特征選取:利用特征選擇函數對句子進行特征抽取;(3)序列標注:利用CRF模型對句子成份進行序列標注,訓練抽取模型;(4)關系抽取:利用關系抽取函數獲得演化關系三元組;(5)點度中心性計算:利用PageRank算法計算獲取到的演化關系三元組中概念的點度中心性,再根據點度中心性排序,將結果輸出。
最后,通過計算點度中心性的結果,結合人工評價的方法判斷計算結果的準確性與有效性,驗證算法的可行性。
實驗數據來自于中文維基百科,選擇了與“機器學習”領域知識話題相關的1000個網頁進行實驗。利用獲取的演化關系三元組計算各概念的點度中心性,選取點度中心性排序前5的數據結果,如表1所示。
從表1可知,點度中心性靠前的概念為“機器學習”、“信息論”、“概率論”、“統計學”等,表明其是重要的核心概念,這也表明數據來源的相關性與準確性,為驗證這些概念是知識圖譜中的核心概念,選取機器學習領域知識圖譜中包含這些概念的部分知識圖譜[2](如圖1所示),進行人工評價。
從圖1可以看出,“機器學習”、“概率論”、“統計學”等概念點度中心性較高,是連接各種概念的重要節點,表明其是學習中需要重視的知識,即核心概念。由于選擇的僅是局部的知識圖譜,而且只計算各概念的點度中心性,忽視了概念間的有序關系,因此圖譜中只出現了表1中的部分概念。但是根據人工評價,點度中心性能夠反映概念的重要程度,鑒定其是否屬于核心概念,因此本文提出的方法具有一定的可行性。

圖1 機器學習知識圖譜(局部)
知識圖譜的應用領域廣泛,能夠有效的給學習者了解知識間的邏輯關系具有重要意義,但是對于新興學科,無法揭示該領域中對學習者具有重要指導意義的核心概念或知識。針對這一問題,本文提出一種基于PageRank的知識圖譜核心概念識別方法,利用已獲取的演化關系三元組,計算概念的點度中心性,再結合人工評價,驗證了本文方法的可行性。由于PageRank算法存在主題漂移、偏重舊網頁、忽視用戶個性化等缺陷[8],可能對算法的有效性存在一定影響,后續的研究中可以嘗試對該方法進行改進,以提高核心概念識別的準確性。在后續的研究中可以考慮中介中心性及接近中心性指標,從多角度檢驗本文方法的有效性和普適性。
[1]王萍.網絡環境下的領域知識挖掘[D].上海:華東師范大學,2010.
[2]高俊平,張暉,趙旭劍,楊春明,李波.面向維基百科的領域知識演化關系抽取[J].計算機學,2016,39(10):2088-2101.
[3]殷沈琴,張計龍,任磊.基于關鍵詞共現和社會網絡分析法的數字圖書館研究熱點分析[J].大學圖書館學報,2011,29(4):25-30.
[4]唐果媛,張薇.基于共詞分析法的學科主題演化研究進展與分析[J].圖書情報工作,2015, 59(5):128-136.
[5]Ye C, Feng L. The research of theme identification in scientific documents[C]// IEEE International Conference on Computer Science and Automation Engineering. IEEE, 2012:715-718.
[6]Martin B, Eklund P. From Concepts to Concept Lattice: A Border Algorithm for Making Covers Explicit[C]// International Conference on Formal Concept Analysis. Springer-Verlag, 2008:78-89.
[7]李稚楹,楊武,謝治軍.PageRank算法研究綜述[J].計算機科學,2011(b10):185-188.
[8]宋歌,葉繼元.基于SNA的圖書情報學期刊互引網絡結構分析[J].中國圖書館學報, 2009, 35(3):27-34.