一種基于鏈接和語義關聯的知識圖示化方法

2017-08-31 19:49:08張立波羅鐵堅萬啟陽武延軍

計算機研究與發展 2017年8期

關鍵詞：排序語義概念

楊林張立波, 羅鐵堅萬啟陽武延軍

1(中國科學院大學北京 101408) 2 (中國科學院軟件研究所北京 100190) (icode@iscas.ac.cn)

一種基于鏈接和語義關聯的知識圖示化方法

楊林1張立波1,2羅鐵堅1萬啟陽1武延軍2

1(中國科學院大學北京 101408)2(中國科學院軟件研究所北京 100190) (icode@iscas.ac.cn)

將海量的知識梳理成人類更容易接受的形式，一直是數據分析領域的難題.大多數傳統分析方式直接對知識本身進行總結和描述概念化(conceptualization)；而一些教育實踐證明，從臨近的知識單元進行刻畫圖示化(schematization)更容易使一個知識點被人類接受.在目前的經典計算機知識表達方法中，知識圖示化主要依靠人工整理完成.提出了一種利用計算機自動化完成知識圖示化的方法，依托維基百科概念拓撲圖，探究概念與其臨近概念的關系，并且提出了基于鏈接的自動篩選最關聯概念算法；使用目前最新的神經網絡模型Word2Vec對概念間的語義相似度進行量化，進一步改進關聯概念算法，提高知識圖示化效果.實驗結果表明：基于鏈接的關聯概念算法取得了良好的準確率，Word2Vec模型可以有效提高關聯概念的排序效果.提出的方法能夠準確有效地主動分析知識結構，梳理知識脈絡，為科研工作者和學習者提供切實有效的建議.

知識圖示化；概念拓撲圖；詞嵌入；知識表達；維基百科

在人類知識庫越來越龐大、分類越來越細化和專業化的今天，個體早已無法完全掌握人類的所有知識.人們自然而然地想到使用計算機來處理、存儲和利用海量的知識.一方面，人們希望生產出能夠充分利用人類知識庫為自己服務的機器，繼而產生了人工智能領域；另一方面，人類試圖探究如何利用計算機完成對龐大知識數據的梳理和挖掘，用以提高人類的教育水平.無論以上哪個方面，都繞不開一個重要問題——如何用計算機對人類知識進行表示？人工智能領域的知識表示更傾向于對知識結構的描述，如邏輯表示、框架表示、本體表示[1]等，這些工作著眼于創造計算機能夠接受的用于描述知識的數據結構.而用于教育人類自身的計算機知識大數據表示方式則更加直接，通常以“將知識梳理成人類更容易接受的形式”為核心目的，探究知識體系的表現形式.

很多實踐證明，通過相關知識單元來描述給定知識點的知識表示方式更易被人類接受(例如思維導圖Mind Map的蓬勃發展)，我們稱之為知識的圖示化(schematization)[2].在傳統的教育方式中，由于人類教育者無法考慮到知識體系整體，只能著眼于對某個知識點本身的刻畫，我們稱之為知識的概念化(conceptualization)[3]；即使在教育過程中使用了相關知識點間的聯系，這些聯系本身也大多由經驗豐富的人類教育者決定，缺乏普適性和客觀性.而計算機的優勢在于能夠處理海量的數據，可以彌補人類教育者對于知識掌控的不足，本文將深入研究如何使用計算機對知識點進行合理、客觀的圖示化表示.

本文的主要貢獻有3方面：1)通過建立維基百科概念拓撲圖(Wikipedia concept topology, WCT)，并對其拓撲結構進行分析，提出了一種基于鏈接的概念相關性算法.2)運用自然語言處理中的分布式語義向量方法計算概念間的語義相似度并與基于鏈接的概念相關性算法結合，最終提出一種主動分析知識點并進行圖示化表述的方法；3)提出了依靠知識的網絡結構對概念進行分層、分類的思路，對計算機語義分析具有重要意義.

1 相關工作

在人類知識的整個結構框架中，概念是最重要的基本知識單元，而對于各種概念相關性的構建和量化是知識圖示化的重要手段.對于概念相關性的計算主要依靠推薦系統和自然語言處理中的相關算法.目前主流的推薦算法主要有基于內容的推薦[4]、協同過濾推薦[5]、基于規則的推薦[6]等，而現有的推薦算法大多應用于社交網絡，鮮見應用于知識網絡中，本文嘗試將推薦系統中的相似度算法推廣到概念相關性計算中.

前人關于維基百科中的概念相關性算法有基于概念向量的方法、基于路徑的方法、基于概率的方法和基于鏈接的方法等.基于向量的經典方法有Gabrilovich和Markovitch提出的精確語義分析(explicit semantic analysis)[7]，通過比較2篇文章中較重要概念組成的權重向量(weighted vector)判斷它們的相關性；以及Shirakawa等人提出的概念向量(concept vector)[8]，通過比較2個概念投射到的對應分類組成的向量判斷相關性.Strube和Ponzetto提出的基于路徑的度量方式(path based measures)[9]，將概念投射到對應分類后比較分類中的最短路徑.基于概率的方法依據模擬人類點擊的概率分布(即概念的重要性)來判斷相關性大小，例如Yeh等人提出的隨機行走算法(random walks)[10]和Dallmann等人[11]提出的另一種隨機行走算法的改進算法等.基于鏈接的方法是依靠概念網絡中的鏈接來進行距離測算，如Milne和Witten提出的標準化鏈接距離(normalized link distance)和鏈接向量相似度(link vector similarity)[12].

雖然計算概念相關性的算法多種多樣[11,13-15]，但這些算法大多適用于中遠距離的概念，即區別較大的概念；而本文中需要比較的概念大多屬于同一類別，于是我們提出了一種新的基于鏈接的相關性算法來判斷概念的相關性，具體將在2.4節中敘述.

另外，在考慮概念相關性時自然會考慮到概念語義之間的相關性.自然語言處理領域關于語義關聯的研究表明，詞匯可以通過由神經網絡訓練的分布式語義向量表示，即詞嵌入(Word Embedding)[16].Word Embedding是詞項在低維空間中的語義向量表示，可用于度量概念間的語義關聯.本文嘗試利用一種詞嵌入模型Word2Vec[16]來量化概念間的語義相似度，進而提高純粹基于鏈接方法在計算相關概念方面的準確率和覆蓋率.

2 知識圖示化模型

2.1數據集與預處理

互聯網百科全書是當前能夠隨意查閱的最大、最完整的人類知識庫，其中維基百科是各國共同參與編撰的規模最大的互聯網多語言百科全書，其與專業人士編撰的大英百科全書具有相近的正確率[17]，但由于編輯自由，發展更加迅速.截至2016年7月25日，英文維基百科總計擁有5 201 640篇文章、39 827 021個頁面，覆蓋了人類的大部分知識領域.其以詞條為最小知識單元，以鏈接跳轉表現知識之間的聯系，具有緊密的結構以及普遍連通性，與人類思維模式高度一致，因此本文選取維基百科作為基本數據集.我們使用維基百科2016年6月1日發布的XML格式離線數據包作為原始數據，解壓后的XML文件大小為53.4 GB，其中包含維基百科2016年6月以前的所有頁面文本和超鏈接數據.

人類的知識是由一個個知識點(knowledge point)和它們之間的關系構成，概念是知識點的最小單位，維基百科數據集中概念的表達方式就是詞條(title)[18].知識體系中，每個概念的刻畫都由2個部分組成:1)概念本身包含的信息;2)與其他不同概念之間的關系.對應到維基百科的詞條，就是詞條本身的內容描述和與其他詞條的鏈接關聯.所以為了對概念之間的關系進行分析，我們不僅需要對維基百科的概念建立網絡拓撲圖，還需要對每個詞條對應的文本進行語義分析.于是，我們對XML數據進行5步處理：

1) 抽取每個頁面的文本信息(包括詞條和詞條的描述)和頁面全部的鏈接；

2) 刪除其中的非內容頁(如分類頁、幫助頁等等)和空指向頁，并且將所有重定向頁與其指向的頁面合并；

3) 將每個詞條的首字母改為大寫(統一命名規范)，并與其文本進行對應；獲得維基百科內容語料數據集

4) 為了建立拓撲圖，將單向鏈接變為雙向鏈接，于是維基百科中的詞條和鏈接就可以分別看成一個有向圖的頂點和邊的集合；

5) 利用廣度優先搜索計算圖的聯通分量分布，去掉部分無關分量，獲得維基百科拓撲圖.

第5步處理獲得的連通分量分布如表1所示，其中最大連通分量包含了維基百科中99.9%以上的詞條，表明維基百科中的概念和知識網絡具有普遍連通性的特點.其他連通分量中多為特殊字符等無關緊要的內容，因此我們將其忽略掉.將最大連通分量的12 269 222個詞條連同它們之間的鏈接作為我們的概念拓撲圖，其對應的概念和超鏈接作為我們研究的數據集.

最終我們獲得了2個數據集：維基百科內容語料數據(content data of Wikipedia, CDW)和維基百科概念拓撲圖(WCT).前者包含12 269 222個詞條和這些詞條對應的內容.后者包含了有向圖GD(V,E)和對應的無向圖GU(V,E)，其中V為所有概念對應的頂點(vertices)的集合，E為所有鏈接對應的有向邊或無向邊的集合.

Table 1 Distribution of Connected Components表1 連通分量分布[19]

2.2概念相關性

從人類通常的思維方式出發，在接受一個未知的概念時，人們通常會利用與它相關的概念進行輔助理解.值得注意的是，這里的相關性概念不單包括簡單意義上的“相近”，也包括從其他維度上的相關性.以單詞記憶這種知識獲取方式為例，原始的死記硬背方法效率十分低下.教育領域的相關研究發現：包括詞根記憶、近反義詞記憶、同領域單詞記憶在內的各種維度的相關詞記憶，都可以大大提高學習效果，即人們往往對一系列相關單詞的記憶更加深刻(如圖1所示).所以依據概念的相關性建立知識圖譜，更加符合人類的思維方式，也更利于提高知識理解的效率.

Fig. 1 Correlation application in word retention圖1 相關概念應用在單詞記憶中

為了研究概念之間的相關性，我們需要完成2項工作：1)選取與給定概念可能存在某種關聯的概念，組成相關概念集合Vc；2)對相關概念集合按照某種算法進行相關性排序，篩選出最相關的部分概念，用于建立知識圖譜.結合整個維基百科拓撲的網絡概念和普遍連通性，本文將利用基于鏈接距離的方法，從其他概念與給定概念之間的距離進行分析，確定相關概念集合Vc.

Fig. 2 Direct and indirect link in Wikipedia圖2 Wikipedia中的直接和間接鏈接

2.3相關概念集合

維基百科中每個概念的頁面中都包含了大量指向其他概念的鏈接，同時每個概念也被其他概念頁面鏈接，顯然這些存在直接頁面鏈接的概念最有可能成為最相關概念，是我們分析的重點.然而維基百科的結構決定了我們并不能直接排除其他概念的相關性，因為一個頁面上的超鏈接個數有限，顯然無法將所有與給定概念相關的概念展現出來.例如“Earth”與“Galaxy”直觀上是極其相關的2個概念，然而在維基百科概念拓撲圖中它們直接并沒有直接相連，而是通過“Solar System”間接聯系，如圖2所示.因此我們在建立相關概念集合時，必須將與給定概念直接或間接相連的概念(不同級別的鄰接概念)都考慮在內.在通過鏈接距離建立相關概念集合的同時保留它們之間的距離信息(鄰接度)，并以此作為計算概念之間相關性的重要參數.

假設給定概念為c，我們選取無向的維基百科概念拓撲圖GU(V,E)作為研究對象，若無向圖中概念a與概念b對應的頂點之間有邊連接，我們稱概念a與概念b鄰接.定義圖中與c直接鄰接的概念組成的集合為c的1級鄰接集合V1(c)；與V1(c)中的概念鄰接，但不屬于V1(c)的概念組成的集合為c的2級鄰接集合V2(c)；依此類推，我們可定義出c的n級鄰接集合Vn(c).n級鄰接集合Vn(c)中概念v的鄰接度由ac(v)表示.由以上定義和拓撲圖GU的普遍連通性可知，任意不同于c的概念v，必定屬于某一個鄰接集合Vi(c)，且具有唯一的鄰接度i.

V1(c)={v1∈V，(c,v1)∈E}， (1)

Vi+1(c)={vi+1∈V|?vi∈Vi(c),(vi,vi+1)∈Eand ?j≤i,vi+1?Vj(c)}，i>1. (2)

Table 2 Size of Adjacency Set (AS)表2 鄰接集合規模

于是，我們需要對給定概念鄰接集合的鄰接度進行限制，以確定相關概念集合的大小.我們隨機選取了500個概念，研究它們各級鄰接集合分布情況(部分結果如表2所示).可以看出，隨著鄰接度的增長，鄰接集合的規模增加速度極快，這是由維基百科的普遍聯通性決定的，也符合概念間廣泛聯系的特點.大多數概念的3級鄰接集合規模大于106，遠遠超出我們的需求；而部分概念的1級鄰接集合過少，無法覆蓋足夠多的相關概念來建立網絡.因此本文選取給定概念c的2級鄰接概念集合V2(c)作為c的相關概念集合Vc，即：

Vc=V1(c)∪V2(c).

(3)

2.4基于鏈接的概念相關性排序算法

在通過網絡拓撲獲得了給定概念的鄰接集合作為相關概念集合后，我們需要對相關概念集合Vc中的概念進行相關性排序.由于概念拓撲的復雜性，我們很難使用一種單獨的方法既考慮到概念本身的特性又兼顧網絡整體性，所以在本節中我們將采用偏重概念不同特點的排序方法，再將不同方法的排序結果進行擬合得到基于鏈接的概念相關性排序.

2.4.1 基于鄰接概念的相似度排序

一個概念可以通過它周圍近距離的概念進行一定程度上的描述，這些概念可視為給定概念的特征，且不同的概念其周圍的概念一般也不同.因此我們可以仿照推薦系統中相似度判別的方法將某個概念v的1級鄰接概念集合V1(v)與給定概念c的1級鄰接概念集合V1(c)進行相似度判別，以此計算它們的相關性.如圖3所示，白色節點為V1(c)中的元素，灰色節點為V1(v)中的元素，黑色節點為V1(v)和V1(c)的共有元素，概念v和c有一定的相關性(因為描述它們的概念有重疊部分，相關性大小可由重疊部分的占比計算).

我們引入Jaccard相似性系數Jc(v)[16]來衡量v與c的相關性：

(4)

Fig. 3 Correlation calculation by overlaps of the first adjacency sets圖3 1級鄰接概念集的相似度計算

Jc(v)越大，即v與c的特征重合度越大，表明v和c有更強的相關性.對于給定概念c，我們在其相關概念集合Vc中對每個概念按照相關性進行排序，可得到一個最相關概念排行，如表3所示(以概念“Eigenvalues and Eigenvectors”為例).

為了驗證相似度排序的準確性，我們利用另一個基于維基百科的數據集Clickstream作為測試集.該數據集以月份為單位記錄了每個月中用戶通過不同方式(搜索引擎、站內跳轉或直接訪問)訪問維基百科不同概念頁面的次數.截至2016年7月25日，Clickstream對英文維基百科總共提供了5個版本(201 501,201 502,201 602,201 603和201 604).為了充分利用數據集并消除熱點詞對訪問的影響，我們將5個版本進行了組合，同時只保留站內鏈接跳轉的數據，處理成易于訪問和查詢的格式，詳細過程不再贅述.通過Clickstream數據集我們可以得到用戶在2個概念之間雙向訪問的總次數，以此作為對相關概念集合Vc每個概念與給定概念相關性排行的依據，如表4所示(同樣以概念“Eigenvalues and Eigenvectors”為例).

Table 3 Rank of “Eigenvalues and Eigenvectors” by JaccardSimilarity Coefficient (JSC)

Table 4 Rank of “Eigenvalues and Eigenvectors” by Clickstream表4 Clickstream中“Eigenvalues and Eigenvectors”的排序

2.4.2 基于雙向鏈接距離的相似度排序

由表3和表4的對比我們看出，Jaccard相似性系數考慮了概念本身的特性，所以得到了較為合理的排序結果，但由于只利用了1級鄰接概念集合，結果在廣泛性上仍存在一些不足.為了提高排序效果，充分利用維基百科網絡拓撲結構，本文提出了另一種相關性算法——標準化雙向鏈接距離(normalized bidirectional link distance, NBLD).

Cilibrasi和Vitányi提出了基于Google判斷2個單詞相關性的標準化Google距離(normalized Google distance)[20]，隨后Milne和Witten提出了標準化鏈接距離(normalized link distance, NLD)并將其應用到維基百科中[12]，NLD算法根據鏈入2個概念頁面的鏈接數來計算它們的相關性.NLD算法只考慮了鏈入情況，然而事實上維基百科中給定概念頁面中鏈入和鏈出的概念都與給定概念存在相關性.直接使用NLD算法的排序結果只覆蓋了相關概念集合Vc中約17.03%的概念.于是本文提出一種標準化雙向鏈接距離算法：

(5)

其中,W是研究對象中所有概念的集合，V1(c)和V1(v)分別是c和v的1級鄰接概念集合.NBLD算法可以將相關概念覆蓋率提高40%以上，以概念“Eigenvalues and Eigenvectors”為例，如表5所示:

Table 5 Rank of “Eigenvalues and Eigenvectors” by NLDand NBLD

(a) NLD

(b) NBLD

2.4.3 基于鏈接關系的相似度算法擬合

由表4和表5的對比可以看出，NBLD算法相比于NLD算法有更高的相關概念覆蓋率，但NBLD算法過于注重概念網絡整體性，忽略了概念自身的特性，結果仍不夠理想.所以我們將Jaccard相似性系數和NBLD算法進行擬合，使之彌補各自的不足，獲得基于鏈接的相似度排序算法；同時引入鄰接度相關性衰減系數，使得鄰接概念v與給定概念c的距離對最終結果產生加權影響.

對鄰接概念集合Vc中的每個概念v與給定概念c，本文提出相關性排序算法：

(6)

其中,γ為鄰接度相關性衰減系數，取值范圍為(0,1]；γ=1表示1級鄰接概念和2級鄰接概念權重相同，γ越趨于0表示越重視1級鄰接概念的重要性.通過對整個WCT數據集的訓練，我們可以確定γ的最優值.

2.5基于語義的相關性排序改進算法

2.4節提出了一種基于鏈接的相關性排序算法，通過維基網絡拓撲的結構來自動生成指定概念c的相關概念排序.除了利用維基百科概念間的網絡結構外，通過對概念之間的語義相關性進行分析也可以進一步提高概念相關性排序的準確性.

自然語言處理(natural language processing, NLP)領域的研究表明，單詞可以通過神經網絡計算出的分布式語義向量來表示[16].分布式語義向量表示方法，即Word Embedding，已經被應用在眾多自然語言處理任務中.2個詞之間的語義關聯可通過計算他們的分布式語義向量間的余弦相似度來度量.而Word Embedding模型的1個重要特性是詞語的相似度表示不局限于簡單的句法規律,語義信息可通過語義向量的運算來獲取,例如單詞“King”的向量表示，通過簡單的向量加減法“King”-“Man”+“Woman”，會獲得1個和單詞“Queen”的向量表示極為類似的向量.此外在語義向量空間中，2個具有相似上下文結構的單詞其語義向量也相似.綜上，利用Word Embedding可方便而準確地度量概念之間的語義關聯，且這種語義關聯是具有多樣性的，并不局限于概念之間的語義相似.

本文提出一種基于語義的相似度算法(word embedding based, WEB)，使用Word Embedding模型來量化概念間的語義相似度，優化相關性排序結果.將Word Embedding用于知識圖表示的主要挑戰在于如何利用單詞的語義向量表示生成概念的語義向量表示.

本文利用Word2Vec[16]計算架構的連續詞袋模型(continuous bag of words model, CBOW)來訓練概念的語義向量表示.CBOW模型的架構如圖4所示，模型的神經網絡由3層組成，包括輸入層、隱藏層和輸出層.基本思想是通過詞w(t)的上下文內容：context{w(t-n),…,w(t-1),w(t+1),…,w(t+n)}來預測詞w(t)，其中詞w(t)的上下文由w(t)前后各n個詞組成.上下文詞的數量被稱為窗口大小.模型的似然函數為

(7)

其中,w和c(w)分別代表選定詞和其相關文本.(c(w)，w)是1個訓練樣本，D是訓練樣本集合.θ是待優化的參數集，包含了各詞的分布式語義向量，訓練算法為隨機梯度上升法.需要提到的是，p(w|c(w);θ)是Softmax回歸模型，在CBOW模型中有2種Softmax回歸的實現方法，分層Softmax和負采樣，本文中選用負采樣方法.根據相關文獻[16,21]，CBOW模型的上下文窗口大小設置為10，詞向量的維度設置為100.

計算概念分布式語義向量

(8)

我們同樣通過計算余弦相似度的方法來計算2個概念的相似度

(9)

其中，c和v分別為概念c和概念v的語義向量表示.

最后，通過線性加權的方式來優化2.4節中基于鏈接距離的概念相似度算法

Corrc(v)=αCorrlink c(v)+(1-α)Corr_SEMc(v)，

(10)

其中，α是決定基于鏈接和基于語義2種相似度權重的參數.使用語義關聯算法的優化效果將在實驗結果及評價章節進行展示.

Fig. 4 The architecture of CBOW圖4 連續詞袋模型架構

3 實驗分析

3.1評價指標

我們通過歸一化折損累積增益(normalized dis-counted cumulative gain, NDCG)[22]指標，對本文提出的算法進行評估.NDCG@K被廣泛應用于排序效果的評估

(11)

其中，如果某個概念排序與標準排序吻合,ri=1，否則ri=0.IDCG是人工標注的標準排序.

3.2實驗設置

為了更好地評估本文提出的方法，本文進行了大量的對比實驗，涉及的方法有10種：

1) JSC,單獨使用JSC算法進行概念相關性排序.

2) NBLD,本文提出的標準化雙向鏈接距離算法.

3) JSC+NBLD,本文提出的基于鏈接的概念相關性排序算法.

4) JSC+WEB,使用WEB算法對JSC算法進行優化.

5) NBLD+WEB,使用WEB算法對NBLD算法進行優化.

6) Finkelstein等人[13]提出的基于路徑的算法.

7) Gabrilovich等人[23]提出的ESA算法.

8) Agirre等人[24]提出的基于分布式網絡的相關性排序算法.

9) Milne等人[12]提出的一種基于超鏈接的相似度算法.

10) 本文方法,通過WEB算法對基于鏈接的概念相關性排序算法優化.

3.3參數設置

本文提出方法在實驗中涉及的重要參數有2個，分別是基于鏈接的概念相關性算法中的鄰接度相關性衰減系數以及WEB算法優化時的加權系數α.經過訓練后，衰減系數γ=0.7(參數優化步長0.1)，加權系數α=0.78(參數優化步長0.01).

3.4實驗效果評價

通過對包括本文方法在內的10種算法進行對比實驗.將相關性概念的排序結果通過NDCG@10和NDCG@50進行評價，結果如表6所示：

Table 6 Performance Evaluation Results of DifferentAlgorithms

實驗結果顯示，經過WEB算法優化后，無論是JSC算法還是NBLD算法以及基于鏈接的概念相關性排序算法的排序結果都有明顯的提升，其中優化后的JSC算法在NDCG@50指標下排序效果提升了36.67%，JSC+NBLD方法在NDCG@10指標下提升了11.26%.可以看出，使用基于語義的概念相關性算法(WEB)明顯地提升了相關概念排序的效果，這與本文的理論分析相吻合.

而本文提出的算法在與Finkelstein,Gabrilovich等人方法的比較中，獲得了更好的實驗結果，說明我們的方法可以更準確地描述出與給定概念最相關的概念，在概念圖示化效果方面會取得更好的表現.

3.5知識圖示化舉例

使用本文中提出的模型，對于任何給定概念，都可以自動生成其對應的可靠的圖示化表述.本節中以Neuron為例來展現這一圖示化過程：

1) 選取Neuron為給定概念，找出其鏈入、鏈出的1級和2級鄰接概念(1級鄰接概念共1 455個，2級鄰接概念共112 415個)組成相關概念集合；

2) 分別計算相關概念集合中每一個概念與Neuron的Jaccard相似性系數和標準化雙向鏈接距離，并按照公式計算相關性，獲得基于鏈接的相似度集合；

3) 計算Neuron與相關概念集合中其他所有概念的語義相似度，使用線性加權公式來產生最終的相似度集合.

4) 按照相關性降序排序，選出與Neuron最相關的6個概念(繪圖需要)：Action potential,Axon,Brain,Neurotransmitter,Synapse,Central nervous system；

5) 分別選取這6個概念為給定概念，重復步驟1～4；

6) 將結果以圖像形式展現出來，圖5即為我們對概念Neuron的圖示化結果.

Fig. 5 Knowledge schematization of “Neuron”圖5 概念“Neuron”的知識圖示化

為了評估圖示化結果的準確性，我們與Clickstream數據集進行對比，對于概念Neuron人類實際最關心的5個概念如表7所示，與我們生成的結果高度吻合.

Table 7 Most Correlated Concepts of Neuron by Clickstream表7 通過Clickstream對Neuron的相關概念排序

4 總結

本文主要研究了基于維基百科的自動化圖知識表示算法，利用維基百科的網絡結構和概念間的語義關聯，有效地建立了知識的網絡拓撲結構.與前人工作不同的是，本文提出了計算機主動分析概念關系的思想，通過與記錄人類點擊的數據集Clickstream比較，不斷完善相關性算法，使得計算機能夠找出給定概念最恰當的1組相關概念，為人類學習者提供了可能的學習建議.

在研究工作初期，我們遇到數據量過大難以處理的困境，之后通過使用Hadoop集群進行分布式計算，從海量數據中抽取出研究所需的維基百科概念拓撲圖，簡化了后續工作的計算難度.由于我們需要對近距離概念相關性進行計算，對相關性算法的辨識度要求很高，且計算機語義分析的效果難以直接評判，于是我們使用了Clickstream數據集，依據人類點擊的熱度對模型進行評估.

需要指出的是，本文的工作基于維基百科進行，將維基百科的概念網絡近似看作人類的知識網絡.一方面來說，維基百科相較于人類知識網絡更為規整和結構化，實際知識網絡中2個概念之間是否有聯系難以通過鏈接的形式簡要判斷，從這個角度看我們的工作有一定的理想性.但從另一個角度看，維基百科是當今人類最大的互聯網百科全書，很大程度上能夠代表人類的知識水平，我們通過其獲得的知識結構同樣具有很大的參考價值，結果不容忽視.如果我們能夠獲得、處理并應用更好的數據集和相關的算法，相信會取得令人更加耳目一新的成果.

[1] Brachman R J, Levesque H J, Reiter R. Knowledge Representation[M]. Cambridge: MIT Press, 1992

[2] Srinivas S, Hirtle S C. Knowledge based schematization of route directions[C] //Spatial Cognition V. Berlin: Springer, 2006: 346-364

[3] Camisón C, Forés B. Knowledge absorptive capacity: New insights for its conceptualization and measurement[J]. Journal of Business Research, 2010, 63(7): 707-715

[4] Balabanovic M, Shoham Y. Fab: Content-based, collaborative recommendation[J]. Communications of the ACM, 1997, 40(3): 66-72

[5] Sarwar B, Karypis G, Konstan J, et al. Item-based collaborative filtering recommendation algorithms[C] //Proc of the 10th Int Conf on World Wide Web. New York: ACM, 2001: 285-295

[6] Sarwar B, Karypis G, Konstan J, et al. Analysis of recommendation algorithms for e-commerce[C] //Proc of the 2nd ACM Conf on Electronic Commerce. New York: ACM, 2000: 158-167

[7] Gabrilovich E, Markovitch S. Computing semantic relatedness using Wikipedia-based explicit semantic analysis[C] //Proc of the 20th Int Joint Conf on Artificial Intelligence. San Francisco, CA: Morgan Kaufmann, 2007: 1606-1611

[8] Shirakawa M, Nakayama K, Hara T, et al. Concept vector extraction from Wikipedia category network[C] //Proc of the 3rd Int Conf on Ubiquitous Information Management and Communication. New York: ACM, 2009: 71-79

[9] Strube M, Ponzetto S P. WikiRelate! computing semantic relatedness using Wikipedia[C] //Proc of the 21st National Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2006: 1419-1424

[10] Yeh E, Ramage D, Manning C D, et al. WikiWalk: Random walks on Wikipedia for semantic relatedness[C] //Proc of the 4th Workshop on Graph-Based Methods for Natural Language Processing. New York: ACM, 2009: 41-49

[11] Dallmann A, Niebler T, Lemmerich F, et al. Extracting semantics from random walks on Wikipedia: Comparing learning and counting methods[C] //Proc of the 10th Int AAAI Conf on Web and Social Media. Menlo Park, CA: AAAI, 2016: 33-40

[12] Milne D, Witten I H. An open-source toolkit for mining Wikipedia[J]. Artificial Intelligence, 2013, 194: 222-239

[13] Finkelstein L, Gabrilovich E, Matias Y, et al. Placing search in context: The concept revisited[C] //Proc of the 10th Int Conf on World Wide Web. New York: ACM, 2001: 406-414

[14] Hoerl A E, Kennard R W. Ridge regression: Biased estimation for nonorthogonal problems[J]. Technometrics, 1970, 12(1): 55-67

[15] Singer P, Niebler T, Strohmaier M, et al. Computing semantic relatedness from human navigational paths on Wikipedia[C] //Proc of the 22nd Int Conf on World Wide Web. New York: ACM, 2013: 171-172

[16] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. Computer Science, 2013, abs/1301. 3781: 1-13

[17] Giles J. Internet encyclopaedias go head to head[J]. Nature, 2005, 438(7070): 900-901

[18] Gregorowicz A, Kramer M A. Mining a large-scale term-concept network from Wikipedia[J]. MITRE Corporation, 2006 [2017-02-06]. https://www.researchgate.net/publication/200773446_Mining_a_Large-Scale_Term-Concept_Network_from_Wikipedia

[19] Zhang Libo, Luo Tiejian, Sun Yihan, et al. Semantic analysis based on human thought pattern[C] //Proc of the 28th IEEE Int Conf on Bioinformatics and Biomedicine. Los Alamitos, CA: IEEE Computer Society, 2016: 1936-1939

[20] Cilibrasi R L, Vitanyi P M B. The google similarity distance[J]. IEEE Trans on Knowledge and Data Engineering, 2007, 19(3): 370-383

[21] Yazdani M, Popescu-Belis A. Computing text semantic relatedness using the contents and links of a hypertext encyclopedia: Extended abstract[J]. Artificial Intelligence, 2013, 194: 176-202

[22] Manning C D, Raghavan P, Schütze H. Introduction to information retrieval[M]. Cambridge: Cambridge University Press, 2008

[23] Gabrilovich E, Markovitch S. Wikipedia-based semantic interpretation for natural language processing[J]. Journal of Artificial Intelligence Research, 2014, 34(4): 443-498

[24] Agirre E, Alfonseca E, Hall K, et al. A study on similarity and relatedness using distributional and WordNet-based approaches[C] //Proc of Conf on the North Americ on Chapter of the ACL. Stroudsburg, PA: ACL, 2013: 19-27

KnowledgeSchematizationMethodBasedonLinkandSemanticRelationship

Yang Lin1, Zhang Libo1,2, Luo Tiejian1, Wan Qiyang1, and Wu Yanjun2

1(UniversityofChineseAcademyofSciences,Beijing101408)2(InstituteofSoftware,ChineseAcademyofSciences,Beijing100190)

How to present knowledge in a more acceptable form has been a difficult problem. In most traditional conceptualization methods, educators always summarize and describe knowledge directly. Some education experiences have demonstrated schematization, which depicts knowledge by its adjacent knowledge units, is more comprehensible to learners. In conventional knowledge representation methods, knowledge schematization must be artificially completed. In this paper, a possible approach is proposed to finish knowledge schematization automatically. We explore the relationship between the given concept and its adjacent concepts on the basis of Wikipedia concept topology (WCT) and then present an innovative algorithm to select the most related concepts. In addition, the state-of-the-art neural embedding model Word2Vec is utilized to measure the semantic correlation between concepts, aiming to further enhance the effectiveness of knowledge schematization. Experimental results show that the use of Word2Vec is able to improve the effectiveness of selecting the most correlated concepts. Moreover, our approach is able to effectively and efficiently extract knowledge structure from WCT and provide available suggestions for students and researchers.

knowledge schematization; concept topology; Word Embedding; knowledge representation; Wikipedia

born in 1989.

his bachelor’s degree in information and communication engineering from Zhejiang University, Zhejiang. Currently PhD candidate at the University of Chinese Academy of Sciences. His main research interests include recommendation system, information retrieval, machine learning and distributed storage system.

Zhang Libo, born in 1989. Received his bachelor’s degree in microelectronics from Anhui University, and received his master’s degree in electric engineering from the University of Electronic Science and Technology of China. Now assistant professor in the Institute of Software, Chinese Academy of Sciences. His main research interests include image processing, pattern recognition, knowledge graph and deep learning.

Luo Tiejian, born in 1962. PhD, professor. His main research interests include Web mining, large scale Web performance optimization and distributed storage systems.

Wan Qiyang, born in 1997. Undergraduate in the University of Chinese Academy of Sciences, Beijing. His main research interests include knowledge graph and computer education.

Wu Yanjun, born in 1979. Received his PhD degree in computer software and theory from the Institute of Software, Chinese Academy of Sciences, in 2006. Currently, professor at the Institute of Software, Chinese Academy of Sciences, Beijing. His main research interests include operating system and artificial intelligence.

2017-03-20；

：2017-05-12

中國科學院系統優化基金項目(Y42901VED2,Y42901VEB1,Y42901VEB2) This work was supported by the Foundation of Chinese Academy of Sciences for System Optimization (Y42901VED2, Y42901VEB1, Y42901VEB2).

張立波(zsmj@hotmail.com)

TP305

一種基于鏈接和語義關聯的知識圖示化方法

1 相關工作

2 知識圖示化模型

3 實驗分析

4 總 結

4 總結