龔 浩,崔運鵬,錢 平(中國農業科學院農業信息研究所)
21世紀第二個十年即將走完,文獻計量三大定律依然發揮其重要的計量指導作用。布拉德福定律是由英國著名文獻學者B.C.Bradford于20世紀30年代率先提出的描述文獻分散規律的經驗定律。其文字表述為:如果將科技期刊按其刊載某學科專業論文進行統計并以遞減順序排列,那么可以把期刊分為專門面對這個學科的核心區、相關區和非相關區。各個區的文章數量相等,此時核心區、相關區和非相關區期刊數量成1:n:n2的關系。[1]洛特卡定律是由美國學者A.J.洛特卡在20世紀20年代率先提出的描述科學生產率的經驗規律,又稱“倒數平方定律”。[2]它描述的是科學工作者人數與其所著論文之間的關系:寫兩篇論文的作者數量約為寫一篇論文的作者數量的1/4;寫三篇論文的作者數量約為寫一篇論文作者數量的1/9;寫N篇論文的作者數量約為寫一篇論文作者數量的1/n2……,而寫一篇論文作者的數量約占所有作者數量的60%,該定律被認為是第一次揭示了作者與數量之間的關系。1932年,哈佛大學的語言學專家齊普夫在研究英文單詞出現的頻率時,發現如果把單詞出現的頻率按降序排列,則每個單詞出現的頻率與它的名次的常數次冪存在簡單的反比關系,這種分布就稱為齊普夫定律,[3]它表明在英語單詞中,只有極少數的詞被經常使用,而絕大多數詞很少被使用。實際上,包括漢語在內的許多國家的語言都有這種特點。[4]這個定律后來在很多領域得到了同樣的驗證,包括網站的訪問數量、城鎮的大小和每個國家公司的數量。各類圖書資源增長依舊符合文獻三大定律,呈指數增長趨勢,時至今日,傳統的分類已經無法滿足其處理任務,就像農科院農業圖書館這樣的傳統圖書館,如何結合現代的物聯網技術、適應現代數字化要求的問題丞待解決。
數字化的要求已經日益廣泛,各高校以及科研院所紛紛投入巨額資金來建設數字圖書館,以應對學者以及科研人員對于擴張性增卡的電子資源的需求。1999年物聯網概念提出時,各互聯網跨國巨頭企業就開始倡導全球互聯,以IBM為代表的互聯網科技公司提出了“智慧地球”。這一概念由IBM的CEO彭明盛提出,“智慧地球”指的是將傳感器嵌入或者裝備到電網、鐵路、橋梁、公路、家庭設備、移動設備和航空器等物體上,形成所謂的“物聯網”,目的在于實現全球物體和信息的共聯與交互。以中國農業科學院為例,每年國家農業部以及研究生院投入幾百萬甚至上千萬的資金,力圖打造面向農業科研人員的數字圖書館,盡管目前還在艱難建設中,但各院所對農業圖書館電子資源的建設積極支持,其效益有待進一步提升。因此,為加緊數字圖書館的建設,院所構建數據共享平臺,并采購物聯網設備,利用RFID射頻技術對原有文獻資源進行數據收集,[5]然而利用物聯網技術,必然對傳統的圖書分類編碼技術提出新的要求。過去圖書管理人員按照《中國圖書館分類法》或者《中國科學院圖書館分類法》,對圖書文獻進行必要的編碼,如今圖書以在線出版為主,且符合大數據的四大特征。借鑒人工智能進行文獻分類,是開發面向農業圖書資源語義挖掘自然語言處理系統面臨的新挑戰。
在自然語言處理方面,主要有兩種思路:① 傳統的語言學處理流派認為,語義理論和邏輯符號理論可以指導計算機進行學習并處理自然語言;② 基于統計學的概率論流派,他們認為計算機可以從文檔集和文本語料等訓練數據集中學習自然語言處理。自20世紀80年代各學者針對自然語言處理提出自己的觀點以來,其發展熱度至今未見減弱,其中Deerwester等人提出的 LSI,[6]Hofmann 等人提出的pLSI,[7]David Blei等人提出的 LDA 模型[8]應用較為廣泛。
S.Deerwester等研究了信息檢索中用戶檢索詞序列與文檔詞序列匹配時存在的基本問題,他們提出借助文檔內部隱含的高階“語義結構”提高檢索的查準率。先將文檔表示成向量空間模型,使用詞頻-倒文檔頻率TF-IDF將文檔集表示成以文檔為行、單詞為列的矩陣,再利用奇異值分解(SVD)方法進行降維,SVD基本公式:N=U∑Vt,此時U和V是正交矩陣,UtU=VtV=1,∑是對角矩陣,包含N的奇異值。[1]從繪制類似于詞頻向量的高維詞向量空間,轉而向低維潛在語義空間轉變。最終的目標是在語義空間中,找到詞與詞、詞與文檔、文檔與文檔之間的鄰域的語義關系。他們以MED語料庫實驗證明,利用LSI去除不相關文檔后,文檔維度越高檢索匹配效果越好,冗余度減少后數據壓縮量越有優勢。但作者也承認目前概念模型很難解決一詞多義現象,其次方法論基礎有待進一步完善;SVD方法在概率統計學上存在高斯噪聲假設的可疑性,而這導致很難在可數的文本變量中驗證其結果準確性的問題。LSI的基本思路是從繪制類似于詞頻向量的高維詞向量空間,向低維潛在語義空間轉變,最終的目標是在語義空間中,找到詞與詞、詞與文檔、文檔與文檔之間的鄰域的語義關系。它存在如下缺點:首先,方法論基礎有待進一步完善;其次,SVD方法在概率統計學上存在高斯噪聲假設的可疑性;最后,LSA所具有的概念模型很難解決一詞多義現象。
由此,T.Hofmann提出引入概率統計推斷的pLSI,針對同樣的文檔檢索匹配問題,pLSI旨在改進LSI模型最終結果缺乏概率解釋的問題,它繼承了LSI的自動文檔索引、文檔降維和構建語義空間的優點的同時,利用潛在的層次模型提供概率混合組成分解,以似然函數的最優化作為結果,配合退火EM算法適應模型擬合,提供了檢索匹配結果在統計推斷上更加合理的方法。[2]作者分別以LOB語料庫、MED文檔作為測試數據,[6-9]以復雜度為測量指標,對比評價了LSI和pLSI,發現pLSI模型的匹配準確率更高。存在的缺點如下:① 模型中的參數數量會隨著文本語料的增長而增長,這會引起過度擬合的問題;② 如何分配訓練文檔以外的文檔概率不甚明確。pLSI的啟示主要有以下兩點:① 它有效消除了一詞多義的語義分歧問題;② 它通過把具有相同主題的詞聚類以揭示主題的相似性來解決同義詞的問題。文檔信息檢索的重要應用模型就是VSM(向量空間模型),使用的方法是TF-IDF。它存在的缺點如下:① 模型中的參數數量會隨著文本語料的增長而增長,這會引起過度擬合的問題;② 如何分配訓練文檔以外的文檔概率不甚明確。

圖1 pLSI概率圖
隨著主題模型的發展,研究人員發現了pLSI中存在的問題,并逐步開始改進,其間產生了很多優秀的算法模型,其中以Blei的博士論文提出的LDA模型最為優異。LDA是一個三層貝葉斯模型,可用于分類、新穎性檢測、總結、相似性和相關性判斷。[3]適合于文檔建模、文檔分類和協同過濾等領域,Blei認為Hofmann的pLSI沒有解決文檔間層次的概率模型的問題,他基于詞包假設,即詞在文檔中的順序對文檔檢索沒有影響,[10]在LDA文章中使用了變分法近似估計[11]和EM算法推斷經典的貝葉斯參數。[12,13]基于經典的Finetti定理,[14]可以發現文檔內部混合分布的統計結構,更好地解決文檔建模、文檔分類和協同過濾等問題。[15]在文檔建模方面,測試語料庫選擇的是TREC AP語料庫,測試指標是對比平滑混合一元模型和pLSA模型復雜度,結果顯示LDA復雜度最低,模型表現最好。[16]在文檔分類方面,測試文檔是路透社新聞語料,指標是精確度和復雜度,依然顯示LDA模型表現最好。[17]LDA的基本思路是:文檔群由隨機潛在主題構成,而主題是由其中的詞項分布來組成。LDA認為文檔d是從語料D中這樣生成的:①選擇N~泊松分布(ξ);② 選擇θ~狄利克雷分布(α);③ 對于每一個詞Wn,Wn>選擇主題Zn~多項式分布(ρ),Wn> 從ρ(Wn|Zn,b)選擇Wn
值得提醒的是LDA模型區別于一般的狄里克雷多項聚類模型,狄里克雷多項聚類模型的文檔一般是單主題,而LDA模型的文檔可以是多主題的。LDA比相關潛在模型優勢之一就是它對于原先沒有見過的文檔也能提供較好的推理程序。它存在的劣勢在于它的基礎詞包假設允許多個詞從同一個主題產生,同時這些詞又可以分配到不同的主題。為了解決這個問題,我們需要擴展基礎的LDA模型,釋放詞包假設,允許詞序列的部分具有可交換性或馬卡洛夫鏈性。
目前,國內語義挖掘的系統或者說平臺較成功有中科院語義挖掘平臺與哈工大的自然語言處理平臺,兩者在語義挖掘方面各有千秋,[18]但是其中的缺憾是農業領域的自然語言處理缺乏針對性,其次在圖書分類方面尤其是農業文獻分類方面的信息資源管理大有提高的空間。下面先以一般的自然語言處理流程出發,然后再借助目前算法及機器學習等文本語義挖掘技術,開發出小型的面向某科研機構農業圖書資源的自然語言處理系統,結合目前的自然語言處理系統實驗評估方法檢測其性能。
自然語言處理的流程包括詞項選擇、分詞處理、詞性標注、文法表示、語義挖掘。[19]相應地,語義挖掘的自然語言處理系統應該包括以下的基本步驟:得到一個訓練的文檔數據集、確定包含所有可能的模型的假設空間、確定模型選擇的準則、實現求解最優模型的算法、通過學習方法確定最優模型、利用學習的最新模型預測或處理最新的文檔數據集。

圖2 LDA主題概率圖
在相應的算法中,輸入與輸出進行相應的比較,只有在誤差小于某一特定統計量允許范圍時,該算法提出的模型才是有效的,否則即拋棄。LSA之前的TF-IDF確定的VSM(向量空間模型),在諸多學者驗證之下,[6-8,20-24]對文檔分類檢索來說其精確度與召回率都不是很理想。因此本文在樸素貝葉斯的算法理念上使用更成熟的LSA、更進一步的EM算法上的pLSA以及進化版EM算法上的LDA模型。LDA的推理算法有拉普拉斯估計[25-26]、多項式估計[27]以及最著名的馬卡洛夫鏈蒙特卡洛。[28]
EM算法的流程如下:① 初始化分布參數;②迭代更新直至收斂。
>(E步):對每個文檔來說,若參數θ已知,根據訓練數據找到隱變量Z最優值。

>(M步):若Z值已知,則方便最大化對模型參數的極大似然估計。這與發現每個文檔的充分統計數據的最大期望估計有關,這一估計與E步驟計算的后驗概率有聯系。

傳統的語義挖掘的主題模型參數估計算法較為著名的有變分貝葉斯EM算法[29-31]、馬爾科夫鏈蒙特卡洛方法的吉布斯抽樣[32-33]、層次貝葉斯算法[8,34-36]等。其中應用最廣泛的是EM算法,利用EM算法迭代計算貝葉斯后驗分布的概率,優點在于其速度較快,缺點在于計算量大,且模型計算的參數不準確;而利用馬爾科夫鏈蒙特卡洛方法的吉布斯抽樣模型參數估計較準確,但收斂速度較慢,終止條件不明確。
目前較成熟的文檔處理模型是LDA模型,雖說現在在樸素LDA模型上已經有了很多改進版本,[37]但是毫無疑問都是LDA的版本,以Blei和Hoffmann來說,他們于2010年合作開發的Online-LDA模型,[38]證明的LDA模型的成功之處。LDA處理的問題領域有文檔建模、文檔分類和協同過濾。具體以文檔分類為例,本文中的系統具體可以實現文檔模型語位學模塊、形態規劃形態學模塊、詞匯與語法句法模塊、話語背景語義、領域知識推理模塊。
文檔模型語位學模塊,可以實現文檔層分析、文檔形態合成,借助Python模塊的Gensim與NLTK實現。形態規劃形態學模塊,可以實現形態與詞法分析、形態實現功能,這一模塊的實現主要依靠Python的Scikit-learn與gensim的word2vec實現。詞匯與語法句法模塊,可以實現話語背景語義,這可以用于物聯網的語音收入設備,實現解析和句法分析的功能,利用Java實現的weka分析其統計量,句法實現交給numpy、scipy以及NLTK模塊包。話語背景語義模塊,可以達到上下文推理和話語規劃的功能效果,這在系統中顯得至關重要,利用Scikit-learn中相應的推演算法可以實現,當然需要NLTK的輔助實現。應用推理模塊,借鑒哈工大以及中科院自然語言處理系統的成功點,實現本系統。
關鍵的難點在于其模型的參數估計,對于主題模型和其他流行的貝葉斯模型,模型的參數很難精確計算,研究者一般訴諸于大致的后驗概率推斷。較普遍的后驗概率推斷算法包括兩類:取樣接近和最優化接近。取樣接近一般基于馬卡洛夫鏈蒙特卡洛取樣(MCMC);最優化接近基于變分推理,在貝葉斯層次模型中使用稱為變分貝葉斯(VB)。經驗表明,VB比MCMC效率高而且精確度一樣。
赫爾伯特·西蒙(Herbert A.Simon)曾對“學習”給出以下的定義:“如果某個系統可以通過執行某個過程改進它的性能,這就是學習”。[39]按照這一觀點,自然語言處理的性能改進也就是模型“學習”的過程。其中語言模型的性能通常用交叉熵和復雜度(Perplexity)來衡量。

交叉熵的意義是計算文本識別的難度,從壓縮的角度來看,每個詞平均要用幾個位來編碼。復雜度的意義是用該模型表示這一文本平均的分支數,其倒數可視為每個詞的平均概率,復雜度越高,模型的性能越低。平滑是指對沒觀察到的N元組合賦予一個概率值,以保證詞序列總能通過語言模型得到一個概率值。通常使用的平滑技術有圖靈估計、刪除插值平滑、Katz平滑和 Kneser-Ney平滑。[40]
歧義的描述和消除是制約計算語言學發展的瓶頸問題。將交叉熵引入計算語言學消岐領域,采用語句的真實語義作為交叉熵的訓練集的先驗信息,將機器翻譯的語義作為測試集后驗信息,計算兩者的交叉熵,并以交叉熵指導對歧義的辨識和消除。實例表明,該方法簡潔有效,易于計算機自適應實現。交叉熵不失為計算語言學消歧的一種較為有效的工具。
pLSA與一般的一元混合模型(LSA)都包括了過度擬合問題,雖然原因大小不一。以一元混合模型為例,過度擬合是訓練數據集峰值后驗概率的結果。這一現象與樸素貝葉斯模型類似,在E步中訓練文檔中聚類的不變性造成了M步中詞項概率的趨同性。一個原先沒有在訓練文檔中出現的文檔可能很好地擬合了混合模型,但是其中的可能未出現在訓練模型中的詞項被分配了很小的概率,這導致了隨著文檔主題數的增加,其中包含未知詞項的概率增多,最終導致復雜度或者說困惑度的激增。
[參考文獻]
[1] S.C.Bradford.Sourcesofinformationon specific subjects[J].Journalof Information Science,1934,10(4):173-180.
[2] Lotka A J.The frequency distribution ofscientific productivity [J].Journal of theWashington Academy of Sciences,1926,16 (12):317-323.
[3] Zipf G K.Selected studies of the principle of relative frequency in language[J].Language,1933,9 (1):89-92.
[4]王崇德.文獻計量學教程[M].天津:南開大學出版社,1990:51-52.
[5]卓文飛.中國農業數字圖書館信息集成服務系統研究[D].北京:中國農業科學院,2008.
[6] DeerwesterS,etal.Indexingby latentsemanticanalysis[J].JournaloftheAmerican Society for Information Science,1990,41(6):391-407.
[7] Hofmann T.Probabilistic latentsemanticanalysis[J].Uncertainty in Artificial Intelligence,1999,7(3):289-296.
[8] BleiDM,etal.Latentdirichletallocation[J].Journal ofMachine Learning Research,2003,3 (1):993-1022.
[9] Papadimitriou CH,etal.Latentsemantic indexing:A probabilistic analysis[C]//Symposium on Principlesof Database Systems, New York: ACM Press, 1998:159-168.
[10] Salton G,McGillM J.Introduction tomodern information Philadelphia,PA [J].American Association forArtificial IntelligenceRretrieval,1983,47 (158):112-125.
[11] Blei D M,Jordan M I.Variationalmethods for the Dirichletprocess[C]//Proceedingsof the Twenty-first International Conference on Machine Learning,New York:ACMPress,2004:12.
[12] Cheeseman P,etal.AutoClass:Abayesian classification system [J].Machine Learning Proceedings,1988(9):54-64.
[13] NealRM,Hinton G E.A view of the EM algorithm that justifies incremental,sparse, and other variants[M].Berlin:Springer,1998:355-368.
[14] DiaconisP.Recentprogresson de Finetti’snotionsof exchangeability [J].Bayesian Statistics,1988,3:111-125.
[15] Hill BM,De FinettiB.Theory of probability[J].Journalof the American Statistical Association,1975,17(2):126-127.
[16] BleiDM,JordanM I.Modelingannotated data[C]//International Acm Sigir Conference on Research and Ddevelopment in Information Retrieval, New York:ACMPress,2003:127-134.
[17] Baker LD,Mccallum A.Distributional clusteringof words fortextclassification[C]//InternationalAcm Sigir Conferenceon Research and Development in Information Retrieval, New York: ACM Press, 1998:96-103.
[18]徐戈,王厚峰.自然語言處理中主題模型的發展 [J].計算機學報,2011,34(8):1423-1436.
[19]孫海霞,成穎.潛在語義標引(LSI)研究綜述[J].現代圖書情報技術,2007,2(9):49-53.
[20] Dickey JM.Multiplehypergeometric functions:Probabilistic interpretationsand statisticaluses[J].Journalof the American StatisticalAssociation,1983,78(383):628-637.
[21] DumaisST.Latentsemantic indexing (LSI):TREC-3 report[J].NistSpecialPublication SP,1995,57 (134):219-219.
[22] JoachimsT.Making large-scale SVM learningpractical[R].Dortmund:Universita..tDortmund,1998.
[23] WolfeM BW,etal.Learning from text:Matching readersand textsby latentsemanticanalysis[J].DiscourseProcesses,1998,25 (2-3):309-336.
[24] Hofmann T,et al.Learning from dyadic data[C]//Advances in Neural Information Processing Systems,Cambridge,MA:TheMITPress,1999:466-472.
[25] CaniniK,etal.Online inferenceof topicswith latent Dirichlet allocation[C]//Artificial Intelligence and Statistics,Cambridge,MA:JMLR,2009:65-72.
[26] BraunM,McAuliffe J.Variationalinference for large-scalemodels of discrete choice [J].Journal of the American StatisticalAssociation,2010,105(489):324-335.
[27] Florentin JJ,etal.Handbook ofmathematical functions[J].American Mathematical Monthly, 1966,73(10):1143.
[28] JordanM I,etal.An introduction tovariationalmethods for graphical models[J].Machine Learning,1999,37(2):183-233.
[29] Dempster A P,etal.Maximum likelihood from incompletedatavia theEM algorithm [J].Journalofthe RoyalStatisticalSociety,1977,39 (6):1-38.
[30] SatoM A,IshiiS.On-lineEM algorithm for thenormalized Gaussian network [J].Neural Computation,2000,12(2):407-432.
[31] Liang P,Klein D.Online EM forunsupervisedmodels[C]//Human LanguageTechnologies:Conference of the North American Chapter of the Association of ComputationalLinguistics,NewYork:DBLP,2009:611-619.
[32] Liu JS,Chen R.SequentialMonteCarlomethods for dynamic systems[J].Journalof theAmerican StatisticalAssociation,1998,93(443):1032-1044.
[33] HastingsW K.Monte Carlo samplingmethods using Markov Chainsand theirapplications[J].Biometrika,1970,57 (1):97-109.
[34] Chang J,etal.Reading tea leaves:How humansinterpret topicmodels[C]//Advances in Neural Information ProcessingSystems,New York:Curran Associates Inc.,2009:288-296.
[35] Song X,etal.Modelingand predicting personal information dissemination behavior[C]//Proceedingsof theEleventh ACMSIGKDD InternationalConferenceon Knowledge Discovery in Data Mining, New York:ACMPress,2005:479-488.
[36] Griffiths T L,Steyvers M.Finding scientific topics[J].Proceedingsof theNationalacademyofSciences,2004,101(s1):5228-5235.
[37] Yao L,etal.Efficientmethods for topicmodelinferenceonstreamingdocumentcollections[C]//Proceedingsofthe15th ACMSIGKDD InternationalConference on Knowledge Discovery and Data Mining,New York:ACMPress,2009:937-946.
[38] Hoffman M D,et al.Online Learning for Latent DirichletAllocation[C]//Neural Information Processing Systems, New York: Curran Associates Inc.,2010:856-864.
[39] AnzaiY,Simon H A.The theoryof learningby doing[J].PsychologicalReview,1979,86(2):124.
[40] Chen S F,Goodman J T.An empirical study of smoothing techniques for languagemodeling[J].Computer Speech&Language,1999,13(4): 359-394.