●張 巖,丁海德,周曉梅(青島科技大學 圖書館,山東 青島 266061)
圖書館數字化的迅猛發展給我們帶來了海量的讀者相關信息。[1]在數字化學術圖書館中,對海量非結構化讀者相關知識的管理問題已經成為學者感興趣的研究領域。
研究人員設計開發了許多挖掘算法和知識管理系統,其中,文本挖掘是一種基于自然語言處理、信息檢索、信息抽取和數據挖掘等技術,在海量非結構化文本中半自動的發現模式和趨勢的挖掘技術。[2-4]通常文本挖掘被視為面向功能的方法,它專注于數據挖掘任務的需求和目標。這種目標驅動的方法將文本挖掘研究和現實的應用緊密地結合起來。然而,由于數據類型的多樣化和知識存在的不同形式,文本挖掘不得不面對各種難題。對于不同目的的不同功能需要考慮使用不同的文本挖掘系統。
文本挖掘是基于先進的信息技術,對“隱藏”于海量非結構化文本中的沒有檢測到的新穎的非結構化知識進行提取的過程。[5]它使得知識工作者得以揭示文本集中的關系并從中發現新的知識。因此,文本挖掘和數據挖掘是相似的,二者都要處理海量數據并獲得知識。但數據挖掘是從結構化的數據集中獲取,如數據庫等其他結構化形式。而文本挖掘所面對的是各種類型的不斷增加的文本數據流。
文本挖掘系統由三部分組成:最基本的部分包括機器學習、數理統計和自然語言處理;在此基礎之上五種基本技術構成了第二部分,分別為文本數據提取、文本分類、文本聚類、文本數據壓縮和文本數據處理;第三部分是在前者基礎之上的應用、信息獲取(如信息檢索、信息過濾等) 和知識發現(如數據分析和數據預測等)。
其中,文本數據提取可以自動發現和索引文本中的重要詞句,如標題、作者、關鍵詞等,同時還可以檢測存檔中出現的重復文件。
文本分類用以將文本文件歸為預先定義好的類別。例如,將不同的新聞分別歸類為“體育”、“政治”和“文藝”等。不論采用何種方法,文本分類過程總是由一個事先分類 l∈L的訓練集D=(d1,…,dn)開始。然后確定一個分類模型

用以將域內新文件d歸入正確的類別。這是一種可被用于很多應用中的監督學習。
文本聚類通過基于數據的屬性來計算聚類和比較相似度,將具有相似內容的文本分別聚集為不同的群組。最為常用的聚類方法有K均值算法、模型估計、混合模型估計、層次聚類和其他方法。[6]
Alexandre等人提出的文本挖掘方法利用信息的提取、檢索和文本挖掘,通過估計協作網絡或知識地圖揭示實體中不同級別的連通性。這種網絡能夠有效洞察學術圖書館中諸如讀者知識(包括來自讀者的知識、關于讀者的知識和能為讀者提供的知識) 和讀者之間的關系,使具有相同研究興趣的讀者可以自動獲取各自所需的信息。
本文提出方案的具體流程:① 將讀者和學術圖書館提供的各種資源如論文、書籍、博客以及關于讀者的相關知識整理為待處理文本;② 文本經信息提取得到實體和索引數據庫;③ 對所得實體進行相關性計算得到實體的相關數據;④ 經數據挖掘、模式的形成及信息檢索完成對文檔的文本挖掘處理。隨后為可視化工具和評價工具以及讀者知識管理的知識管理系統。經以上兩個模塊的處理,讀者即可獲得完備、有序的與研究領域相關的讀者知識。
實體提取階段被稱為命名實體 (Named Entity,NE) 識別,用于發現正確的名稱和它們的變化及所屬的類別。[7]這里NE是指能夠表達現實世界或抽象世界中的對象的文本元素。例如,一個實體可被定義為一個矢量,該矢量由描述、類別和附加信息構成E={description, class,<additional information>} 。 附加信息可以用來說明諸如模式在文本中的位置等信息。
實體提取過程由兩部分組成:有關字的結構和模式。其中,有關字的結構對于實體提取過程和知識庫的表達至關重要。[8]每一個納入考慮的類都和一個相關字表相對應,每一個相關字表都存儲了一組可自辨識的詞。模式在書面語言中得到廣泛應用,它們表達了可被分類的一系列的詞。
相關性方法是用以區分搭配的最常用方法,可用于其他文本元素的相近詞辨別和相關程度的度量。LRD(Latent Relation Discovery) 方法通過對三種因素的考慮來確定實體間的關系。① 共現性。如果兩個實體出現在同一文本中即為共現。② 距離。計算在同一文本中所有具有共現性之間的距離。③ 相關程度。給定實體E1,則實體E1和E2之間的相關程度可由式(2) 給出。均值距離越大說明二者的相關程度越低。一般而言,E1和E2之間的相關程度是不對稱的,其值取決與E1還是E2是目標實體。

式 中 f( Freqi( E1) ) =tfidfi( E1) ,( Freqi( E2) )=tfidfi(E2) , 且Freqi(E1) 和Freqi(E2) 存在于第i個文本之中。tfidfi即詞頻—逆文檔頻率法,是利用統計的方式計算出字詞與文件中的關聯性,進而推導出此次檢索該文件在整個資料庫中的重要程度。定義為:


在構造向量過程中,我們利用式(2) 計算每對實體之間的相關程度。
為進行實體提取和相關過程,需要建立相關實體的數據庫。用LRD方法計算由源實體(Source Entity,SE) 和目標實體 (Target Entity,TE) 構成的實體對,從而將每一組給定實體對〈SE,TE〉其相關程度存儲在數據庫中。如表1所示,從三個文本中提取出七個實體,計算出了其相關程度。
因此,對于任意給定SE,可以依據相關程度檢索出所有相關的TE。例如,表1中的E3和E1之間的相關程度可由下式得出。
R(E1,E3) =2/3*(0.4938+0.5850) =0.7192 (4)

表1 三個文本中七個實體文本間相關權值清單
為了可以查詢分級文本,計算每一文本的擴展向量和基于詞的查詢向量的余弦系數。其精度由檢索文本過程中余弦系數的閾值來控制。本方案采用聚類算法生成模式,以進一步分析文本和實體是如何相互關聯的,采用半徑參數方法來控制聚類形成。[9]
首先,選擇一個矢量形成第一個聚類。重復這個過程,選擇下一個矢量并通過如式 (5) 所示余弦方法和第一個聚類比較。

式中ti和tk是矢量t中第i個和第j個實體的歸一化的頻率,qi和qj是矢量q中第i個和第j個實體的歸一化的頻率。如果一個矢量和一個聚類質心被1減的差大于參數r則該矢量形成一個性聚類。否則,該矢量被分配如某一聚類且計算該聚類的質心值。
當聚類過程達到會聚,過程停止,這取決于與當前和前一個過程的平均差之和。聚類過程結束后我們得到包含矢量和聚類平均質心的聚類。
在實驗中,以來自讀者在圖像壓縮和傳熱學領域的3000篇研究論文為實驗對象,對每一篇論文進行實體識別處理并將結果以矢量的形式存儲。由此,矢量中的元素表達了由描述、類別和在文檔中的位置信息組成的實體。實驗共提取出了2101個實體,其中包含342個組織名稱,1283個個人和476個研究領域。通過實體分析工具對其進行分析以獲得它們之間的相互關系,并應用于知識管理系統。例如,對于給定的SE,我們可以得到最為相關的TE;對于每個類,分析最為相關的關系,從而提供一種簡單的方法來檢查性能,甚至用以檢索某一研究領域的專家。實體相互關系表達了不同的目標,從而對某一研究感興趣的成員就自然地形成了一個群組,由此而形成的社會網絡將使各個研究群組的成員受益。
在本研究中,我們致力于通過文本挖掘和知識管理技術的應用,在學術圖書館中構建一種各個研究領域都可以分享和學習的研究群體。通過基于共現性的文本挖掘方法來獲得文本元素間的相關程度,從而揭示隱藏的知識為知識管理中的決策提供支持。實驗結果表明,本文提出的方案可有效地用于處理海量文本,并且對于新增文本并不需要額外的操作。因此,本文方法能夠處理隱匿于學術圖書館或其他組織的海量文檔中的知識,并對其進行管理。
[ 1] DaneshgarF, BosanquetL.Organizingcustomerknowledge in academic libraries[ J].Electronic Journal of KnowledgeManagement, 2010, 8 ( 1) : 21-32.
[ 2] M Hearst.UntanglingTextDataMining[ C]//The37th Annual Meeting of the Association for Computer Linguistics( ACL’99).Stroudsburg, PA, USA: AssociationforComputationalLinguistica, 1999: 3-10.
[ 3] Gene Ontology Consortium [ EB/OL].[ 2010-06-22].http://www.geneontology.org.
[ 4] R Agrawal, R Srikant.Fast Algorithms for Mining Association Rules in Large Database[ C]//Proceedings of the 20th International Conference on Very Large Databases(VLDB).SantiagodeChile, Chile: MorganKaufmamm, 1994: 487-499.
[ 5] Antonis Spinakis.Text Mining: A Powerful Tool for KnowledgeManagement[ EB/OL].[ 2010-07-29].http://www.quantos-stat.com/articles/Text_Mining.pdf.
[ 6] Xu L, et al.Maximum margin clustering[ J].Advances in Neural Information Processing Systems,2005(17) : 1537-1544.
[ 7] CunninghamHGate.Ageneralarchitecturefortextengineering [ J].Computers and the Humanities,2002, 36 (2) : 223-254.
[ 8] GuthrieL, etal.Theroleoflexiconsinnaturelanguage processing[J].Communications of the ACM, 1996,39(1) : 63-72.
[9] Alexandre G, et al.LRD: Latent Relation Discovery for Vector Space Expansion and Information Retrieval[ C]//Proceedings of the 7th International Conference on Web-Age Information Management.Hong Kong:Know ledge Media Institute, 2006: 122-133.