張禾
摘要:隨著信息技術的發展,人們由一個信息匱乏的時代進入到了信息爆炸的時代,大量信息通過媒體、互聯網等各種途徑沖擊著人們的大腦。面對龐大的數據,人們很難找到他們想要的信息。為解決這種問題,研究者們開始著手在大量數據中挖掘有用的信息、對龐大的信息建立索引、在文檔集中提取話題等方向。本文從專利文檔角度出發,對公司的專利文檔進行分析,提取其潛在的熱點話題,并將其集成到專利檢索系統Patent Miner中。在挖掘公司潛在信息,提高用戶的搜索效率方面具有重要意義。
關鍵詞:話題提取 話題模型 PLSA 專利分類 Google Chart Tools
1 概述
信息超載這個詞最早出現在1970年AlvinTomer的《未來震撼》一書中并被人們所熟知[1]。進入信息時代,信息技術以前所未有的速度迅猛發展著,信息超載的現象越來越清晰地呈現在人們的眼前。隨著網絡技術的飛速發展,人們接受的信息正以各種形式紛至沓來,信息量的日益增多使得用戶很難輕松準確地找到他們想要的信息。為解決這種問題,研究者們開始著手在大量數據中挖掘有用的信息、對龐大的信息建立索引、在文檔集中提取主題等方向。
話題提取旨在挖掘文檔集合中的重要信息,在學術信息檢索領域具有重要的作用。研究者們很早就注意到了挖掘文本信息這個重要領域,并且做了很多研究。1990年Deerwester等人提出LSA模型,認為文檔和單詞之間還有一層潛在語義空間[2],1998年Papadimitriou等人則在明確地指出文檔和單詞之間存在topic層[3],后來的研究者們便開始從topic層面進行話題提取并衍生出一系列的模型以及應用。
本文從公司的專利文檔入手,從topic層面試圖提取公司的熱點話題并分析其發展趨勢,如圖1所示。本文所實現的話題提取有兩種思路,第一種主要基于PLSA算法,另外一種則是根據專利文檔的特點,利用專利所屬的類別名稱來表示公司話題。由于篇幅有限,第二種方法就不進行介紹了。在公司話題趨勢分析方面,本文利用Google Chart Tools圖表將每個公司的話題演化趨勢以折線圖的方式展現給用戶,方便用戶瀏覽查看,提高用戶查找效率。
■
圖1 公司話題提取示例
2 研究目的及方法
隨著計算機和互聯網的迅猛發展,信息迎來了大爆炸時代。大量的數據的出現給人們的使用和選擇都帶來了困擾。話題的提取則可以有效地緩解這種困擾,用戶不需要閱讀大量的文獻就可以發掘這些關鍵的信息,對于提高用戶的搜索效率和工作效率以及提高網站的可用性方面都具有很重要的意義。
本研究課題是科研項目專利檢索系統Patent Miner項目的一個子課題,在195,263家公司的海量專利數據的基礎上對公司話題進行提取分析。實驗采用Myeclipse開發平臺,主要運用Java語言進行開發,并需要掌握一定的Html,CSS和JavaScript知識。
2.1 形式化的問題定義
給定一個公司A,讓DA表示這個公司A所有文檔的集合,即DA={d■■,d■■,…,d■■}。根據Bag-of-Words模型假設文檔集合DA可以生成相應的字典W={w■■,w■■,…,w■■},那么就可以把數據集表示成一個N×M的共生矩陣,其中N=(N(d■■,w■■))i,j,n(d■■,w■■)表示A公司中字典中的第j個單詞在第i個文檔中出現的次數。
我們可以將公司話題提取的問題描述如下:對于一個給定的公司A,M個該公司下文檔的集合DA和對應的N×M的共生矩陣,我們的目標是:
找到幾個topic,這些topic可以用字典中的詞表示
根據PLSA模型,在文檔與字典之間存在一層隱含語義空間topic,文檔服從在topic上的多項分布θ,θ1+θ2+…+θk=1,(k≤N);話題服從單詞上的多項分布φ,φ1+φ2+…+φN=1。只要根據PLSA模型計算出topic在word上的分布,再對結果進行排序取概率最大的幾個word即可。根據上面的定義,給出問題的最終定義:
問題2.1:基于PLSA模型的公司話題提取對于一個給定的公司,話題提取的目標是對全部文檔集進行遍歷,生成字典W和矩陣n(d■■,w■■),利用PLSA模型得出若干話題,并得出每個話題在word上的分布{P(wi|zj)imN,jmK},并對其排序。
2.2 PLSA算法
Probabilistic Latent Semantic Analysis(PLSA) 是概率統計模型中經典的模型之一,是Latent semantic analysis(LSA)的改進版。
LSA是在傳統的單詞與文檔的映射中間加入了潛在語義空間,通過奇異值分解(Singular Value Decomposition)的方式來求解這個潛在語義空間。由于基于SVD,迭代計算次數非常多,在處理海量文本數據時,文檔和詞的維度將急劇增加,使SVD的計算復雜度呈三次方增長。鑒于此,Hofmann于1999年提出一種基于概率的潛在語義分析PLSA模型。PLSA繼承了“潛在語義”的概念,通過“統一的潛在語義空間”來關聯詞與文檔;通過引入概率統計的思想,避免了SVD的復雜計算。由于統計技術的引用,PLSA可以解決模型擬合,模型結合,模型控制等問題,可以更有效的處理多義詞并明確區分不同的含義和不同類型的詞語用法。
PLSA的貝葉斯網絡結構如圖2所示。像其他所有的統計潛變量模型一樣PLSA模型引入了條件獨立性假設,即在潛在變量z下文檔d和詞w是相互獨立的。其中w∈W={w1,…,wN},d∈D={d1,…,dD},z∈Z={z1,…,zK},z≤N。
■
圖2 PLSA結構圖
在條件獨立性假設下,整個數據集的生成過程如圖3所示:
■
圖3 PLSA的生成過程
通過上述生成過程,最終可以生成不含zk的可觀察變量對(d,w)。該生成過程可以形式化為d與w聯合概率:
P(d,w)=P(d)P(w|d),where P(w|d)=■P(w|z)P(z|d)
P(d,w)=P(d)■P(w|z)P(z|d) (2-1)
根據貝葉斯定理邊緣化潛在話題z,則可觀察變量(d,w)的聯合概率可以表示為:
P(d,w)=■P(z)P(d|z)P(w|z) (2-2)
公式2-1和公式2-2是等價的,可以用貝葉斯法則推理得出。
在PLSA中使用最大似然估計來訓練隱含量。最大似然
估計中比較常用的算法就是期望最大化算法,即Expectation-
Maximization(EM)算法,首先為參數賦予隨機初值,之后根據更新公式迭代的更新參數值直到算法收斂。其中更新步驟包括Expectation(E)步和Maximization(M)步:
①Expectation Step——隱含參數的估計,根據當前的參數值計算隱含語義話題的后驗概率P(d,w);
②Maximization Step——確定實際參數,通過前面得到的參數的值最大化對數似然函數(公式2-1或者公式2-2),更新參數。
2.3 PLSA算法實現
本實驗采用公式(2-2)的求解方法,求解P(z),P(w|z),P(d|z)。代碼設計過程如下:
需要聲明的變量:
double[][]p_dz,|D|*|Z|//P(d|z)
double[][]p_wz,|W|*|Z|//P(w|z)
double[]p_z,|Z|//P(z)
程序執行步驟如下:
①讀取單詞對應文檔的矩陣數據
ArrayList
DocWordPair (word_id, word_frequency_in_doc)
②變量初始化
給變量P_dz,p_wz和p_z賦一個隨機的double類型的值,滿足∑dp_dz=1,∑dp_wz,∑dp_z=1
③迭代,直到最大似然估計小于給定的值threshold
計算P(z|w,d)
根據P(z|w,d)更新p_dz,d_wz和p_z的值
計算最大似然估計的對數Log-likelihood,看兩次最大似然估計的差是否小于給定的閾值,差越小,越跟結果相似。
|Log-likelihood old_Log-likelihood| ④輸出p_dz,p_wz和p_z 3 公司話題趨勢分析及圖形化表達 3.1 Google Chart Tools 實驗采用Google Chart來進行公司話題趨勢的展示。Google Chart是谷歌公司推出的一款免費的在線圖表制作工具,相對于其他在線圖表制作工具,Google chart 具有以下優點: ①在Google Chart Tool中數據和表現是分離的, 是MVC的思想。這樣的好處是同一份數據可以用來顯示曲線圖,也可以顯示成柱狀圖等等。 ②圖表呈現使用HTML5/SVG技術,提供跨瀏覽器兼容(包括舊版本的IE的VML)和跨平臺的可移植性,可以完美地顯示在iPhone,ipad以及Android上。這也是最主要的優勢。 3.2 公司話題趨勢的圖形化表達 ■圖4 Exxon Mobil公司話題趨勢 該部分實驗是以利用專利所屬的類別名稱來表示公司話題的數據進行的。以Exxon Mobil公司為例,其話題趨勢變化如圖4所示。從圖中的折線圖變化趨勢可以看出,從1976年至今Exxon Mobil公司一直致力于能源領域的工作,近年各個話題每年都有一定數量的專利發表,表明該公司研究方向沒有太大變化。 4 總結 話題提取旨在提取文檔集合中關鍵的、具有代表性的單詞,可以提高搜索效率和用戶體驗,使學術信息檢索領域具有重要的意義和價值。在這篇論文中,我們以專利檢索系統Patent Miner為背景和數據來源,研究了公司話題提取的問題,主要基于PLSA話題模型來實現。通過對話題模型的學習、建模,實現了一個利用PLSA模型提取公司話題的系統。另外本文還根據專利自身的特點,探討了一下利用USPTO的分類信息代表公司話題的研究,并且利用Google Chart Tools將該方法提取的公司話題數據顯示在web頁面上,圖形顯示部分則在Patent Miner上應用。 參考文獻: [1]維基百科.Information overload[EB/OL].http://en.wikipedia.org/wiki/Information_overload. [2]S.Deerwester,S.T.Dumais,G.W.Furnas,et al.Indexing by latentsemantic analysis[J].Journal of the AmericanSociety for Information Science,1990,41(6):391-407. [3]Christos H.Papadimitriou,Hisao Tamaki,PrabhakarRagha- van,et al.Latent semantic indexing:a probabilistic analysis[A]. Proceedings of the seventeenth ACM SIGACT-SIGMOD-SIG- ART symposium on Principles of database systems,1998, 159-168.