尹莉



[摘要]概念圖是一種知識以及知識之間關系的網絡圖形化表征。本研究中將圖結構的非參數先驗與潛在狄里克來分布結合在一起,構建了一個新的概率模型GLDA,用來學習文檔中的概念圖。并將此模型應用于維基百科中關于機器學習的文獻集合加以驗證,同時與高階彈球分布模型(hPAM)與高階潛在狄里克來分布模型(hLDA)進行了比較,對模型的優缺點進行了分析。
[關鍵詞]概念圖;潛在狄里克來分布;彈球分布模型;機器學習
DOI:10.3969/i.issn.1008-0821.2015.01.017
[中圖分類號]G254.0 [文獻標識碼]B [文章編號]1008-0821(2015)01-0091-05
概念圖(conceptmap)是一種知識以及知識之間關系的網絡圖形化表征,它是一種用節點代表概念、連線表示概念間關系的圖示法。康奈爾大學的約瑟夫·D·諾瓦克(Joserph D.Novak)教授于20世紀70發展出概念圖繪制技巧。一幅概念圖通常由“節點”、“鏈接”和“有關文字標注”組成。概念圖對于知識表征、協同與組織溝通、教育、教學設計、訓練等領域都有重要的應用。概念圖對于總結文獻集合很有用,并且可以提供一種語義內容和大文獻集合結構的可視化。概念圖的一個典型例子就是維基百科中的分類圖,如圖1就是維基百科中關于機器學習的分類圖的一部分子圖,從這個圖中我們能夠很快推斷出維基百科中機器學習方面的文章主要強調的是算法和馬爾科夫模型的演化。
本研究中,將展示一個新的生成概率模型GLDA(Graph Latent Dirichlet Allocationh),來學習文本中的概念圖,并對模型進行檢驗,應用于維基百科的文獻集合進行試驗,最后對模型進行了評價。本研究將在LDA、PAM、stickbreaking分布的基礎上,設計新的生成模型,并解釋它怎樣適用于原始的圖結構。并對模型獲得了吉布斯抽樣方程,而且在模擬數據和真實文本數據上的進行了一系列實驗,最后將模型的性能與分層潛在狄里克來分布和分層Pachinko分布模型進行了比較,對該模型的優點和局限性進行了討論。
1.理論基礎
1.1潛在狄里克萊分布(Laten Dirichlet Auocation)
LDA是給文本建模的一種方法,屬于生成模型,足能夠在文獻收集中自動識別主題的概率模型。可以用來識別大規模文檔集或語料庫中潛藏的主題信息。它采用詞袋的方法,將每一篇文檔視為一個詞頻向量,從而將文本信息轉化為易于建模的數字信息。每一篇文檔代表了一些主題所構成的一個概率分布,而每一個主題又代表了很多單詞所構成的一個概率分布。由于Didchlet分布隨機向量各分量問的弱相關性,標準的LDA模型并不包括主題之間的任何關系、依賴。
4.結論
本研究中我們將圖結構的非參數先驗與潛在狄里克來分布結合在一起,構建了一個新的概率模型GraphlA)A,用來學>J文檔中的概念圖。主要貢獻如下:
第一,我們展示了一個可能有無限多節點的有根節點、有向的無環圖的一個可能的非參數先驗。將圖結構的非參數先驗與潛在狄里克來分布結合在一起,構建了一個新的概率模型叫做GraphLDA,用來學習文檔中的概念圖。第二,我們展示了GraphLDA如何能夠被用來學習文獻集合中的概念圖,如何能用來更新新的標簽文獻中的圖結構。解釋了GraphLDA在一個模擬文獻集合中的執行情況,在這個集合中我們增加了被標注的文獻的比例以用來進行訓練學習。笫三,將GraphLDA的執行與高階Pachinko分布模型(hPAM)與高階潛在狄里克來分布模型(hLDA)進行了比較。解釋了,GraphLDA在維基百科分類圖中的應用。我們展示了GLDA如何被用來更新維基百科中的圖的部分,以機器學習方面的文獻集合為例進行了說明。
研究提出的問題是學習一個給定文獻集合的概念圖,在這個集合中給文獻標注上概念標簽,可以得到一個原始的圖結構。要得到一個原始圖結構,任務就是識別語料庫中沒有在圖中反映出來的那些概念,或者是圖中沒有反映出來的語料庫中的概念之間的關系(通過文獻中概念的共現關系實現)。這個模型對維基百科這樣的文獻集合來說尤為適合,因為在維基百科中文章集合變化得非常快,以至于自動方法用來更新概念圖比手工編輯或者重新學習分類更合適。這個方法一個很重要的拓展就是應用到大圖中,這是很有意義的一個實踐。在抽樣過程中計算每一條路徑的概率也是值得去研究的一個課題,尤其足算法,M樣,還可以探討模型如何能夠處理每個文獻中的多重路徑。endprint