張乃靜,鞠洪波,紀 平
中國林業科學研究院 資源信息研究所,北京 100091
基于本體的林業領域文檔特征權重模型
張乃靜,鞠洪波,紀 平
中國林業科學研究院 資源信息研究所,北京 100091
現有林業領域信息檢索方法多是以關鍵詞匹配為基礎的檢索方式,隨著林業相關研究的深入,林業領域信息總量在不斷增加,傳統的檢索方法已經無法滿足檢索需求,例如用戶檢索“櫟樹”的相關信息,使用關鍵詞匹配進行檢索時無法檢索到“櫟樹”的同義概念“柞樹”和“橡樹”。如何實現高效的林業領域信息檢索成為一個亟待解決的問題。自Tim Berners-Lee[1]提出語義網以來,許多研究嘗試將領域本體應用在信息檢索上,來提高信息檢索的查準率和查全率。文獻[2]利用語義標注來改善檢索系統的性能;文獻[3]提出了一種基于領域本體的語義查詢擴展模型,有效提高了農業信息的檢索效率;文獻[4]建立了基于關鍵詞和基于概念的兩層索引結構,使用基于本體的概念擴展和基于語義標注的概念擴展,提高了檢索的查全率和查準率;文獻[5]利用本體知識庫推理實現了語義搜索;文獻[6]利用本體改進了向量空間模型中排名算法;文獻[7]利用本體中概念的語義距離來計算語義檢索相關度。綜上所述,多數研究利用領域本體中對象的語義關系和語義推理機制來改善信息檢索,獲得了一定的效果,但這些方法仍然存在著一些局限性,例如語義關系僅考慮了概念間的語義距離,而忽略了概念在本體中的結構因素,語義推理對本體要求較高,完善的本體是實現語義推理的基礎,而構建這樣的領域本體是一項巨大的知識工程,難以實現。本文利用本體中概念間的語義關系及結構因素計算概念間的語義相似度,結合特征性頻率-倒排文檔頻率加權法(TF-IDF)[8],提出一種基于本體的林業領域文檔特征權重模型,為進一步實現語義層次上的林業領域信息檢索提供前提,同時也為林業領域數據挖掘提供了一條新途徑。
本文提出的文檔特征權重模型主要包括3個部分:領域本體的構建、文檔的預處理、文檔特征權重的計算。模型結構如圖1所示,主要實施步驟如下:(1)收集林業領域知識并構建林業領域本體;(2)對林業領域文檔進行分析并去除停用詞;(3)計算領域詞匯在文檔中的TF-IDF權重;(4)基于林業領域本體計算本體內各概念及實例之間的語義相似度;(5)結合TF-IDF和語義相似度計算基于本體的林業領域文檔特征權重。

圖1 基于本體的林業領域文檔特征權重計算流程圖
2.1 本體的構建
2.1.1 本體的定義
本體源于哲學上的一個概念,用于描述事物存在的本質。斯坦福大學知識系統實驗室的Gruber最早給出了在信息科學領域被廣泛接受的本體定義:“本體是概念模型的明確規范說明”[9]。Studer等人在對本體進行深入研究后,提出了一個本體概念界定:本體是共享概念模型明確的形式化規范說明[10]。本體之所以重要的一個原因是它對某個領域的概念的共識有利于知識的表達和傳播。一般地,一個本體由概念、關系、函數、公理和實例5個基本的建模元語(Modeling Primitives)構成[11]。領域本體的構建方法如圖2所示。

圖2 領域本體的構建方法
2.1.2 本體的構建
本體的實質是利用領域概念術語和關系來構建領域模型,本體的構建是一個長期的不斷改進補充的過程。本文中本體的構建步驟如下:(1)確定領域知識范圍;(2)構建本體中涉及的核心概念集及核心概念關系;(3)構建屬性及屬性關系;(4)創建實例,使用protégé(http://protege. stanford.edu/)工具對其進行形式化編碼,將構建的本體變成人和機器都可以理解的表達形式。基于林業領域標準規范、網絡及專業敘詞表建立林業領域本體。
圖3顯示的是關于森林類型的本體描述片段,“Thing”表示萬事萬物,是所有領域本體的根節點,概念之間的關系均為父子關系(IS-A關系),例如“云杉林”是一種(IS-A)“針葉林”。

圖3 林業領域本體描述片段
2.2 文檔預處理
目前較為常用的分詞工具是中科院開發的NLPIR漢語分詞系統(ICTCLAS2013),該分詞系統主要功能包括中文分詞、詞性標注、命名實體識別和用戶詞典功能,支持GBK編碼、UTF-8編碼、BIG-5編碼。較多研究證明,該分詞工具在國內同類型工具中具有較大的優勢[12]。基于NLPIR漢語分詞系統開發接口,開發了林業領域文檔分詞工具,實現了對林業領域文檔的批量處理:使用常用詞典和領域本體進行分詞,在分詞結果中自動標注了詞性,結合停用詞詞典和詞性過濾無意義詞匯,最后生成文本文件備用。

圖4 文檔預處理結果
文檔預處理結果如圖4所示,一些領域專有詞匯如“寒溫帶針葉林”被切分為“寒”、“溫帶”和“針葉林”,失去了該詞匯在文檔中的原有意義,所以在分詞過程中需要結合林業領域本體(或詞典),識別出領域內的專有詞匯,提高分詞的精確度。
2.3 TF-IDF文檔特征權重模型
TF-IDF文檔特征權重模型是一種用于信息檢索與文本挖掘的常用權重計算技術,常用于各類搜索引擎中,衡量文檔與用戶查詢之間的相關程度。對于某一特定文檔dj中的詞匯ti來說,它的權重可記為:

式中fij表示詞匯ti在文檔dj中出現的次數,max函數表示fij的最大值,如果ti在dj中沒有出現,那么fij=0,TF-IDF= 0;|V|為文檔數據集的詞匯表的大小;N表示文檔數據集中文檔的總數;dfi為其中含有至少一次詞匯ti的文檔數目。TF-IDF模型可以降低語料庫中出現頻率較高詞匯的權重,保留重要詞匯的權重。
2.4 基于本體的語義相似度
領域本體可用樹形結構來描述,其中樹的節點表示本體中的概念;節點之間的邊表示本體中概念之間的關系,本體樹中任何兩個節點都通過邊(關系)相互連接,處于同一樹枝的概念擁有共同的屬性。概念表達范疇越廣,在樹中所處的層次越高;相反,概念表達越具體,在樹中所處的層次越低。通過上述分析和前人研究經驗的總結,基于領域本體的語義相似度需要考慮語義距離、語義重合度和層次差[13]。
定義1(語義距離)設X,Y是本體中的任意兩個概念(或節點),X到Y最短的路徑距離表示它們的語義距離,記為Dis(X,Y)。
語義距離是語義相似度計算中的一個基本要素,當兩個概念路徑距離較遠時,語義距離較大,語義相似度較小。例如從圖3中可以計算Dis(云杉林,柏樹林)=2,Dis(云杉林,毛竹林)=6;也就是說“云杉林”與“柏樹林”的語義相似度大(都是針葉林),而與“毛竹林”的語義相似度較小(不同的森林類型)。當兩個概念的語義距離為0時,二者為同一概念,語義相似度為1。
定義2(語義重合度)設X,Y是本體中的任意兩個概念(或節點),N(X)和N(Y)表示分別從X和Y出發,到達根節點R所經過的節點個數,語義重合度表示為:

語義重合度表示了兩個概念之間的相同程度。在實際計算中,通常使用兩個概念到達根節點公共節點的個數與總節點個數的比值表達語義重合度。兩個概念擁有的共同節點越多,說明兩個概念的相同程度就越高,語義相似度越大。語義距離中的舉例同樣可以解釋語義重合度,“云杉林”和“柏樹林”的語義重合度為0.8,而“云杉林”和“毛竹林”的語義重合度為0.14,顯然“云杉林”和“柏樹林”的語義相似度較高。
定義3(層次差)設X,Y是本體中的任意兩個概念(或節點),L(X)和L(Y)分別是概念X和Y所處的層次,層次差記為|L(X)-L(Y)|。
概念在本體樹中所處的層次不同,承載的信息量不同,層次差越大,語義相似度就越小。例如圖3中“云杉林”和“毛竹林”處于本體樹的同一層次,層次差為0,而“云杉林”和“灌木林”的層次差為2,從人為理解上看,“云杉林”和“毛竹林”不僅都是一種“森林類型”,而且都是一個具體“森林類型”的實例;而“云杉林”和“灌木林”的共同屬性僅為“森林類型”。所以前者的語義相似度應大于后者。
定義4(語義相似度)設X,Y是本體中的任意兩個概念(或節點),二者的語義相似度計算公式如下:

2.5 基于本體的文檔特征權重模型
當單獨使用TF-IDF模型計算文檔特征權重時,僅考慮了關鍵詞本身,其他與關鍵詞相關的詞匯便沒有考慮。例如詞匯“針葉林”在某文檔中的TF-IDF值為0.3,但該文檔中還包括“落葉松林”和“云杉林”等與針葉林密切相關的詞匯,那么這些詞匯應該增加“針葉林”在該文檔中的權重。所以在計算某詞匯的文檔特征權重時,應結合文檔中詞匯之間的語義相關度。結合式(1)和式(2),本文改進的TF-IDF公式如下所示:

即在基于本體的文檔特征權重計算時,將詞匯wi與文檔中其他相關詞匯wj之間在本體中的語義相似度Sim(wi,wj)作為詞匯wj對詞匯wi的文檔特征權重的貢獻度。
3.1 實驗設計
實驗運行環境:操作系統為Windows 7 Service Pack 1 x64,硬件平臺為Intel I5 CPU 3.3 GHz,8 GB RAM,開發工具,Eclipse 4.2+JDK 1.7,本體構建工具為Protégé 4.1。
在林業科學數據中心網站(www.forestdata.cn)內提取相關網頁數據,根據HTML語言格式,抽取網頁標題和文本主體,將其轉化為純文本文件(txt),接下來依據上文所述文本預處理方法對所有文檔進行預處理,為方便統計,最終共整理文本文件100個。根據式(3)計算關鍵詞在每個文檔中的特征權重(α=1;β=1)。
為驗證基于本體的林業領域文檔特征權重計算模型,使用林業領域文檔特征權重模型與傳統TF-IDF模型進行了檢索對比實驗。實驗采用查準率(precisiοn)和查全率(recall)和F-Scοre作為評價文檔特征權重模型的度量。查準率表示被檢索到的文檔中實際與查詢相關的文檔所占的百分比;查全率表示與查詢相關的文檔中實際被檢索到的文檔所占的百分比;F-Scοre是由查準率和查全率計算得到的評價指標,F-Scοre值越大,表示檢索系統表現越好[14]。對某個測試參考集,信息查詢實例為I,I對應的相關文檔集合為R。假設用某個檢索策略對I進行處理后,得到一個結果集合A。令Ra表示R與A的交集。查準率、查全率和F-Scοre的計算公式分別如下:

在實驗文檔中查詢關鍵詞后,配合領域專家,確認集合R的數量,根據特征權重確認集合A的數量,利用式(4)~式(6)計算平均查準率、查全率和F-Scοre,并繪制查準率-查全率曲線(PR曲線)。
3.2 結果與分析
實驗結果(表1)表明,本文改進的林業領域文檔特征權重模型查準率、查全率和F-Scοre分別為53.8%、100.0%和0.70,均優于傳統的TF-IDF模型。

表1 實驗結果
從PR曲線(圖5)中也可以發現改進的林業領域文檔特征權重模型較傳統TF-IDF模型在查準率和查全率方面均有顯著的提高。改進模型在保證較高查全率的同時依然可以獲得較好的查準率,特別是查全率為60%~75%之間時,查準率可達90%以上。傳統TF-IDF模型由于沒有考慮語義相似度,在實驗中無法實現100%的查全率,在查準率方面也表現不佳。

圖5 PR曲線
本文提出了一種基于本體的林業領域文檔特征權重計算模型。該模型在計算TF-IDF文檔特征權重時,結合林業領域本體,增加關鍵詞與文檔中其他詞匯的語義相關度貢獻,提高了文本檢索的查準率和查全率,使檢索結果更加滿足用戶的需求。但該模型仍然有以下問題亟待解決。首先,領域本體是該模型的前提,但目前本體采用手工構建,由于本體的異構性,不同研究者構建相同領域本體的結構也不盡相同,所以使用該模型得到的結果也可能不同;其次,該模型基于TF-IDF進行改進,所以分詞的質量對結果影響較大,如何改善分詞質量是今后的研究方向之一;再次,本體內的所有概念和實例相互均有聯系,即本體內的任何兩個概念的語義相似度均不為0,領域內的關鍵詞對應的所有領域文檔的特征權重同樣也不為0,所以在使用該模型計算文檔特征權重以及生成倒排索引時需要設置文檔特征權重閾值,以獲得較高的查準率。因此該模型在使用過程中還需要進一步的改進。
[1]Berners-Lee T.Semantic Web-XML2000[EB/OL].[2013-01-12]. http://www.w3.org/2000/Talks/1206-xml2k-tbl/.
[2]Kiryakov A,Popov B,Terziev I,et al.Semantic annotation,indexing,and retrieval[J].Journal of Web Semantics,2004,2(1):49-79.
[3]陳葉旺,李海波,余金山.一種基于農業領域本體的語義檢索模型[J].華僑大學學報:自然科學版,2012(1):27-32.
[4]趙建偉,鄭誠,吳永俊.基于語義查詢擴展的垂直搜索研究[J].計算機工程,2010(12):97-99.
[5]文坤梅.基于本體知識庫推理的語義搜索研究[D].武漢:華中科技大學,2007.
[6]Castells P,Fernandez M,Vallet D.An adaptation of the vector-space model for ontology-based information retrieval[J]. IEEE Transactions on Knowledge and Data Engineering,2007,19(2):261-272.
[7]宋佳,王卷樂,諸云強,等.基于地理空間本體的語義檢索相關度研究[J].計算機工程與應用,2011,47(5):114-117.
[8]TF-IDF-維基百科[EB/OL].(2013-03-01).http://zh.wikipedia. org/wiki/TF-IDF.
[9]Thomas R G.A translation approach to portable ontology specifications[J].Knowledge Acquisition,1993,5(2):199-220.
[10]Studer R,Benjamins V R,Fensel D.Knowledge engineering:principles and methods[J].Data&Knowledge Engineering,1998,25(1/2):161-197.
[11]Perez A G,Benjamins V R.Overview of knowledge sharing and reuse components:ontologies and problem-solving methods[C]//Proceedings of the IJCAI-99 Workshop on Ontologies and Problem-Solving Methods(KRR5),1999.
[12]劉群,張華平,俞鴻魁,等.基于層疊隱馬模型的漢語詞法分析[J].計算機研究與發展,2004,9(8):1421-1429.
[13]甘健侯,姜躍,夏侯明.本體方法及其應用[M].北京:科學出版社,2011.
[14]Liu Bing.Web數據挖掘[M].俞勇,薛貴榮,韓定一,譯.北京:清華大學出版社,2009.
ZHANG Naijing,JU Hongbo,JI Ping
Research Institute of Forestry Information Techniques,Chinese Academy of Forestry,Beijing 100091,China
In the traditional feature weight of documents calculating,the model only considers the key word but other more relative words,so that the results of information retrieval are not comprehensive and precise.Aiming to solve these disadvantages above, this paper presents a model that calculates feature weight of document of forestry domain based on ontology.The steps of this model are as follows:calculate the feature weight using TF-IDF model;require the semantic distance,contact ratio and level difference between the key word and other relative words of document based on ontology,and then calculate the semantic similarity;calculate the feature weight using both results of TF-IDF and semantic similarity.The experiment proves that this improved model can increase the precision and recall ratio in documents retrieval,and meets the needs of users satisfactorily.
ontology;forestry domain;document feature;ranking model;semantic similarity
傳統文檔特征權重模型僅考慮關鍵詞本身,文檔內其他相關詞匯并沒有參與計算,信息檢索時無法返回全面和準確的結果。為解決該問題提出了一種基于本體的林業領域文檔特征權重模型。該模型計算TF-IDF特征權重;結合林業領域本體,分別獲取關鍵詞和林業領域內其他詞匯的語義距離、語義重合度和概念的層次差,并計算語義相關度;結合TF-IDF和語義相似度的結果計算特征權重。實驗證明該模型可以提高文本檢索的查準率和查全率,使檢索結果更加滿足用戶的需求。
本體;林業領域;文檔特征;權重模型;語義相似度
A
TP391
10.3778/j.issn.1002-8331.1303-0173
ZHANG Naijing,JU Hongbo,JI Ping.Modeling feature weight of document of forestry domain based on ontology.Computer Engineering and Applications,2013,49(18):20-23.
國家科技基礎條件平臺建設項目(No.2005DKA32200)。
張乃靜(1982—),女,博士研究生,CCF學生會員,研究領域為數據挖掘,信息系統與信息共享;鞠洪波(1956—),男,博士,研究員,研究領域為計算機應用,信息系統與信息共享;紀平(1964—),女,副研究員,研究領域為數據挖掘,信息系統與信息共享。E-mail:naijing.zhang@gmail.com
2013-03-12
2013-06-14
1002-8331(2013)18-0020-04
CNKI出版日期:2013-06-18 http://www.cnki.net/kcms/detail/11.2127.TP.20130618.1559.002.html