王 萍
【摘要】對網絡環境下海量的科技文獻數據進行文本挖掘可以有效地提高科技文獻信息的可用性,發現隱藏的知識。LDA(Latent Dirichlet Allocation)模型是一種能夠提取文本隱含主題的非監督學習模型。論文基于LDA模型,以三種國際教育技術期刊在2004-2008年間出版的學術文獻為研究對象,進行了主題挖掘和文獻分析。
【關鍵詞】教育技術學;科技文獻;主題挖掘;相似度
【中圖分類號】G420 【文獻標識碼】B 【論文編號】1009—8097(2009)05—0046—05
引言
隨著信息技術的發展,網絡科技文獻資源已經成為知識經濟的重要載體,提供了豐富的數字化信息資源和大量的文獻數據信息,包括電子期刊、電子圖書、學位論文和電子文檔等。這些電子文獻數據在網絡環境下呈指數級增長,成為一座巨大的知識寶庫,也為文獻數據的管理帶來了新的挑戰。面對海量的、快速增長的科學文獻數據,即使是領域內的專家也無法依靠手工方式從中獲取感興趣的信息。因此采用數據挖掘技術從文獻數據庫中快速有效的提取知識信息的需求變得非常迫切。
本文的研究是面向文獻數據的文本主題挖掘。文本挖掘主要使用自然語言處理技術和機器學習方法從海量文獻中有效地找到所需信息,發現隱藏的知識。主題挖掘是通過主題模型從未標簽的文獻數據中獲得抽象的主題信息,進而可以對主題,研究者等信息進行進一步的研究和分析。
文獻數據是在科學研究中,人們發表的論文及其相關信息。文獻數據包括了大量的信息,如文本信息、作者信息、引用信息、機構信息、時間信息、社會信息等。通過對文獻數據進行分析和挖掘,可以發現大量有用或潛在的知識,能夠有效地提高研究者對科技文獻的整理和總結,對研究領域的理解和把握,進而幫助和指導研究者開展更加有效的科學研究工作。
在教育技術學領域,現在每年出版的國內外教育技術學相關的專業期刊和會議論文集有數十種,但對于大規模科技文獻的數據分析和挖掘研究還較少。如何對這些文獻進行自動化的內容分析,挖掘隱藏的知識,提高文獻信息的可用性,從而幫助教育技術研究者更好地利用文獻資源,是本文研究的主要目標。
一 主題模型
1主題模型概述
主題模型(Topic Models)研究的主要目標,就是可以在不需要計算機真正理解自然語言的情況下,提取可以被人理解的、相對穩定的隱含語義結構,為大規模數據集中的文檔尋找一個相對短的描述。當我們得到一個大規模的文本數據集或者是其他類型的離散數據集合時,為了便于理解,總是希望找到這個龐大的數據集的一個簡短描述和概括,來代表或是反映出整個數據集的特征信息。對文本數據來說,就是抽取出一個或幾個主題這樣的抽象概念來描述整個文本數據集。例如一組論文,如果知道它的主題主要是關于數字化學習和教學設計的,那么它所包含的論文也是和這兩個主題相關的,由此可以根據個人的需求選擇是否閱讀這些文章。
一個文本通常包括若干主題,而文本中的特定詞匯體現出所討論的特定主題。主題抽取模型的主要思想是:認為一篇文檔可以理解成是由若干個主題組合形成的,而主題則可以理解成為是詞的一種概率分布。主題模型通過參數估計從文本集合中提取一個低維的多項式分布集合,用于捕獲詞之間的相關信息,稱為主題(Topic)。不同的模型會進一步作不同的統計假設,以不同的方式獲取模型參數。
2 概率生成與統計推斷
主題模型是一種生成式模型,可以根據主題模型所指定的一組概率程序,來創建出一個新的文檔。首先選擇一個文檔的主題概率分布,根據這個概率分布,每次隨機的從中選出一個主題,再根據這個主題在單詞上的概率分布,生成這個文檔的一個個單詞,這樣就可以產生一個新的文檔(盡管里面的詞可能不具有組成句子或更深層次語義的邏輯順序)。如圖1左側的概率生成過程描述了兩個主題。主題1與“教學”有關,主題2與“軟件”有關,每個主題中有若干詞匯,從不同的主題中選取詞,可以組成一個文檔。如文檔1是由主題1中抽樣單詞組成,文檔3是由主題2中抽樣單詞組成,文檔2則分別從主題1和主題2中抽取單詞組成。
如果有了概率生成模型,對這個生成模型進行逆向操作可以得到主題信息。即已經有了一些文檔的集合,需要反過來推斷這個文檔集合具體的主題概率分布以及每個主題在詞上的概率分布。圖1右側描述了統計推斷的過程。
二 Latent Dirichlet Allocation(LDA)模型
統計主題模型的思想最早來源于隱含語義索引(Latent Semantic Indexing,LSI),其工作原理是利用矩陣理論中的“奇異值分解(Singular Value Decomposition,SVD)”技術,將高維度的詞匯--文檔共現矩陣映射到低維度的潛在語義空間,在該空間中,來自詞--文檔矩陣的語義關系被保留,同時詞用法的變異(如同義性、多義性)被抑制。Hofmann提出的概率隱含語義索引(Probabilistic Latent Semantic Indexing,PLSI)[1]模型將LSI擴展到概率統計的框架下,通過概率模型來模擬文檔中詞的產生過程。它將文檔d表示為一個主題混合,文檔中每個詞作為主題混合中的一個抽樣。但是PLSI并沒有用一個概率模型來模擬文檔的產生,只是通過對訓練集中的有限文檔進行擬合,得到特定文檔的主題混合比例。這個過程導致PLSI模型參數隨著訓練集中文檔數目線性增加,出現過度擬合現象,而且,對于訓練集以外的文檔,很難分配合適的概率。
針對PLSI所存在問題,Blei等在2003年提出了Latent Dirichlet Allocation(LDA)[2],在PLSI的基礎上,用一個服從Dirichlet分布的K維隱含隨機變量表示文檔的主題混合比例,模擬文檔的產生過程。在文本的產生過程中,LDA首先從Dirichlet分布中抽樣產生一個文本特定的主題多項式分布;然后對這些主題反復抽樣產生文本中的每個詞。作為一種生成式模型,用LDA提取隱含語義結構和表示文檔已經成功的應用到很多文本相關的領域。在LDA的基礎上,很多研究人員根據不同的應用需求,開發了多種模型,如Author-Topic Model[3]、Pachinko Allocation Model(PAM) [4]、ToT(Topic over Time) Model[5]等。
1 LDA模型[2]
LDA是一個多層的生成式概率模型,包含文檔、主題和詞三層結構。LDA將每個文檔表示為一個主題混合,每個主題是固定詞表上的一個多項式分布,這些主題被集合中的所有文檔所共享;每個文檔有一個特定的主題比例,從Dirichlet分布中抽樣產生。LDA的圖模型表示如圖2所示,其中的變量及含義如表1所示。
(空心點表示隱含變量,實心點表示可觀察值)
給定一個文檔集合C,包含D個文檔和W個不同的詞,D={d1,d2,…,dD},每個文檔d包含一個詞序列{w1, w2, . . . ,wN},假定主題數目固定為T,LDA模型產生文本的過程為:
(1)從參數為β的Dirichlet分布中,抽取 ~Dirichlet(β),i∈{1,2,…,T},其中 為一個多項式分布,表示基于主題 的詞分布。
(2) 一個文檔d的產生可以表示為以下兩個過程:
① 從參數為α的Dirichlet分布選取一個多項式分布θd表示文檔d中主題的組成,即θd~Dirichlet (α)
② 文檔d中的每個詞w的產生。
? 從多項式分布θd中選取一個主題z~Multinomial(θd)。
? 從多項式分布 中選取單詞w~Multinomial( )。
2 LDA模型的統計推斷
對于主題抽取的需求來說,需要對概率生成模型的逆操作,推斷給定數據集隱含變量的后驗分布信息,包括:(1)每篇文檔的主題分布θ;(2)每個文檔集合的主題-詞分布 ;(3) 每個單詞的主題指派z。近似推理(Approximate Inference)常用的方法有:馬爾科夫鏈蒙特卡洛方法(Markov Chain Monte Carlo:MCMC)、變分法(Variational Methods)等。Gibbs抽樣算法是一種馬爾科夫鏈蒙特卡洛方法,它通過一次次的采樣來最終逼近目標概率分布,是一種有效的推理方法。
為了獲取詞匯的概率分布,這里沒有將θ和 作為參數直接計算,而是考慮詞匯對于主題的后驗概率p(w|z),利用Gibbs抽樣間接求得θ和 的值[6]。計算公式為:
其中,zi=j表示將詞wi分配給主題j,z-i表示所有zk(k≠i)的分配, 是分配給主題j與wi相同的詞匯個數; 是分配給主題j的所有詞匯個數; 是文本di中分配給主題j的詞匯個數; 是di中所有被分配了主題的詞匯個數;其中所有詞匯個數均不包括這次zi=j的分配。
對于每一個單一樣本,可以按下式估算θ和 的值:
其中, 表示詞匯w被分配給主題j的頻數; 表示分配給主題j的所有詞數; 表示文本d中分配給主題j的詞數; 表示文本d所有被分配了主題的詞數。
三 基于LDA的教育技術學文獻主題挖掘
筆者選取了教育技術學領域的三種影響力較大的國際期刊《Educational Technology Research and Development》、《Education and Information Technologies》和《Journal of Educational Technology & Society》進行了文獻主題挖掘。在內容選取上,選取了2004-2008年三種期刊已發表的所有論文題目和摘要的文本數據,數據集如表2所示:
1 數據集
2 主題分析
基于LDA模型,使用Gibbs抽樣法,模型參數為:α=0.6,β=0.01,主題數=80,取樣次數=3000,對數據集進行運算,計算出主題--詞分布和文檔--主題分布。表3是所抽取的主題示例。
文檔--主題分布反映了文獻內容的特點,即文獻所涉及的主題或研究層面。如期刊《Educational Technology Research and Development》2007年12月第55卷第6期的一篇論文《Toward an instructional design model based on learning objects》,其主題分布中概率值最大的三個主題為Topic 45(教學設計)、Topic 59(學習對象)、Topic 71(遠程教學),表明了該論文的內容主要涉及了這三個研究層面。
四 文獻分析
基于文獻集合中提取出來的主題,可以對文獻進行相似度分析。如果一些文獻呈現某些相同的主題,則其文獻意義間具有一定的相似度。
1 基于K-L Divergence的文獻相似度分析
兩個文檔d1和d2之間的相似度可以通過其主題分布θd1和θd2來進行測量。一種常用的對概率分布之間差異進行度量的方法是通過Kullback-Leibler Divergence,也稱為K-L散度和相對熵(Relative Entropy)。兩個概率分布p和q的Kullback-Leibler Divergence定義為: 。
K-L散度本身是非對稱性的,在很多應用場合下,常使用Symmetrized K-L Divergence和Jensen-Shannon Divergence,它們具有對稱性的特點,在實際的應用中也有較好的效果。對稱性K-L散度(Symmetrized KL divergence)定義為: 。Jensen-Shannon Divergence定義為: ,其中,M=(p+q)/2。除此之外,對文檔相似度的計算還可以通過其他相似度計算方法,如歐幾里得距離(Euclidian Distance)、余弦相似度等方法。
筆者使用Symmetrized KL divergence,對數據集的文檔進行了相似度分析。如期刊《Educational Technology & Society》2006年第9卷第4期的一篇論文《Web-based Tools for Designing and Developing Teaching Materials for Integration of Information Technology into Instruction》,與該論文相似度最高的文獻是:
通過文獻的相似度分析,可以為用戶進行文獻推薦。文獻推薦能夠幫助用戶查找相關主題的文獻,提高文獻查找效率和準確性,從而有效地提高科技文獻的可用性和價值。
2 文獻的多維標度分析
多維標度MDS(Multidimensional scaling)源于心理測量學和精神物理學,最早被運用于心理測量領域。作為一種數據分析技術,MDS通過構建一個或多個矩陣來表示實體間的距離或相異程度,并利用各實體之間的相異性來構造多維空間上點的相對坐標圖。構造的多維空間上的點與各個實體相對應,如果兩個實體越相似,則它們對應于空間上的點之間的距離就越近。MDS可以有效地將高維空間中點際之間距離壓縮到了低維空間,并以圖形的形式直觀呈現研究變量之間的相似性關系,以達到簡化數據、揭示數據潛在規律的目的,廣泛應用于社會學、經濟學、心理學、教育學等研究領域,用于探索性數據分析或信息可視化。[7]
我們隨機選取數據集中的20個文檔進行了多維標度分析,所得到的二維空間分布圖如下所示,從該圖中我們可以得到如下信息。
(1) 相似度高的文檔(主題相近)在空間圖中距離較近。
(2) 分散在維度1(Dimension 1)與維度2(Dimension 2)兩端的文檔,在該維度上具有較大的相異性。如在維度1上,文檔20和文檔15分布處于維度兩側;在維度2上,文檔0和文檔37處于維度兩側。
(3) 20個文檔中有兩個比較明顯的簇集,一個為:DOC 14、DOC 34、DOC 31、和DOC 40,另一為:DOC 5、DOC 543、DOC 524、DOC 511、DOC 539、DOC 59和DOC 529。每個簇集中的文檔在主題上具有一定的相似度。
五 結束語
文獻數據檢索和挖掘是當前數據挖掘領域的研究內容之一,可以有效提高學術信息的可用性,使用戶能夠快速準確地從急劇增長的科技文獻等自由文本中獲取知識,更全面的利用海量的文獻資源。下一步的研究將在LDA模型基礎上,綜合考慮文獻的其他要素,如作者信息、引文信息,進行文獻網絡的整體建模,深入對科技文獻的分析和挖掘,并將研究結果應用于文獻檢索和學術推薦系統。
參考文獻
[1] Thomas Hofmann. Probabilistic Latent Semantic Indexing [C]. Proceedings of the 22nd ACM SIGIR International Conference on Research and Development in Information Retrieval, 1999:50–57.
[2] David M. Blei, Andrew Y. Ng, Michael I. Jordan. Latent Dirichlet Allocation. Journal of Machine Learning Research[J], 2003,3:993–1022.
[3] Mark Steyvers, Padhraic Smyth, Michal Rosen-Zvi, et al. Probabilistic Author-Topic Models for Information Discovery[C]. Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2004:306–315.
[4] Wei Li, Andrew McCallum. Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations[C]. Proceedings of the 23rd International Conference on Machine Learning, 2006:577-584.
[5] X.Wang, Andrew McCallum. Topics over Time: a Non-Markov Continuous-time Model of Topical Trends[C]. Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2006: 424-433.
[6] Thomas L. Griffiths, Mark Steyvers. Finding Scientific Topics [J]. Proceedings of the National Academy of Sciences of the United States of America, 2004, 101(Suppl. 1): 5228-5235.
[7] Ingwer Borg, Patrick Groenen. Modern Multidimensional Scaling: Theory and Applications (2nd Edition) [M]. Springer-Verlag, New York, 2005.