鄒 海 ,郇秀花
(1.教育部智能計算與信號處理重點實驗室,安徽 合肥 230039;2.安徽大學 計算機科學與技術學院,安徽 合肥 230039)
隨著信息的急劇膨脹,人們希望借助信息檢索工具如搜索引擎來獲取自己需要的信息顯得尤為迫切。然而,傳統的基于關鍵詞匹配的信息檢索技術往往只是得到“千人一面”的檢索結果,難以理解用戶檢索目的和區別用戶的需求。造成這種情況的主要原因有兩方面:一是當前的互聯網不能恰當的處理語義;二是缺乏對用戶的理解。針對第一個原因,Tim Berners-Lee提出了語義Web(Semantic Web)的概念[1]。其引入了以本體(Ontology)來表示概念和語義關聯信息這一思想,來實現不同系統之間的信息共享,提高網絡服務的智能化與自動化。語義Web通過把當前Web上無序的信息變為有序的知識,為解決數據管理有序性與Web上信息無序性相矛盾,搜索引擎的查全查準要求與數據缺乏語義相矛盾等問題指明了方向[2]。針對第二個原因,許多學者引入了用戶上下文信息,如用戶工作內容、專業背景、興趣、愛好、生活習慣、經驗、點擊反饋、用戶認知(Cognition)、理解水平等因素都屬于用戶上下文信息。這些上下文信息都是理解用戶個性化需求的關鍵信息。
隨著語義Web的研究,人們紛紛在本體的基礎上對上下文信息進行分析和描述[3],這些研究具有以下特點:
(1)研究對象僅僅只是用戶的興趣,缺乏從多角度對用戶個性化需求,如理解水平、認知結構等的理解和挖掘。
(2)分析只是集中于利用上下語義關系,缺乏精確的分析和表示。這些研究工作大都基于WordNet、dmoz ODP(Open Directory Project)之類的通用本體,只在概念間的父子關系基礎上進行分析,而不能從細粒度上對用戶的興趣進行精確分析和表示。
(3)研究方法多集中在定性的分析,缺乏定量分析和描述。這些研究大部分從父子語義關系入手來描述用戶興趣范圍,缺乏對用戶興趣深度的描述和表示。如文獻[4]的正例/反例擴展向量和文獻[5]中的個性化層次樹,只要描述的關鍵詞相同,那么用戶的個性化模型也必然相同。
心理學上認為,人們的興趣、認識和情感密切聯系。認識越深刻,情感就越豐富,興趣也就越濃厚。用戶的愛好、理解水平、表達等都和用戶認知結構緊密相關[6]。因此,從用戶的認知結構入手可以更好地理解用戶的個性化需求。尤其在專業領域范圍內,用戶的檢索目標往往和自身在該領域的認知結構相適應。
受認知心理學上激活-擴散模型(spreading-activation model)的啟發,本文提出了一種基于領域本體來描述用戶認知結構的模型ObSAM(Ontology based Spreading-Activation Model)。激活-擴散模型是認知心理學領域里一種表征個體知識的模型,它認為個體內部知識不是按照層次組織的,而是根據概念間的語義關系或者語義之間的距離來組織和表示的。當概念在用戶大腦里出現時,用戶語義記憶中相對應的概念節點會被激活,被激活了的概念節點就開始擴散到其他的概念上,尤其會擴散到那些在語義上有緊密聯系的概念。根據這個模型,本文提出了用戶認知結構模型,依據用戶給出的認知中心概念,一方面,根據領域本體中概念之間的語義相關性推導出用戶認知范圍;另一方面,通過概念之間的語義相關度刻畫出用戶認知深度,從這兩個方面描述用戶對某領域知識的認知結構。
1968年Quillian提出了最早的語義記憶模型。在這個模型中,他用type來描述概念,用 token描述詞語,用帶有標簽說明的激活擴散行為來描述兩個節點之間關聯時涉及到的中間節點。1975年Collins和Loftus最早提出了激活-擴散模型。他們認為個體內部知識不是按層次組織的,而是根據語義關系或語義之間的距離來組織和表示的,并提出了描述人類認知的激活-擴散模型。
激活-擴散模型認為,個體頭腦里所存儲的知識是一種組織巨大的概念網絡,概念之間是通過語義關系相關聯。激活-擴散模型有兩個關于知識結構的假設:(1)連接節點的線段表示概念之間的聯系,連線越短,表明兩個概念之間的聯系越緊密;(2)語義的距離是知識組織的基本原則,即概念的內涵是由它相關聯的其他概念,特別是聯系密切的概念來確定的。它認為,當概念出現時,認知中相應的概念節點會被激活,被激活了的概念節點就開始擴散到其他的概念,特別是那些在語義上有緊密聯系的概念。而激活-擴散的遠近主要由以下因素決定:最初被激活節點的激活強度、從最初被激活的節點到目前節點的語義距離、擴散時間等。
20世紀80年代,激活-擴散模型已經被應用到信息檢索領域,主要運用在文檔和詞匯查詢過程中用以擴展詞匯和文檔集。F.Crestani曾經綜述了激活-擴散模型在信息檢索領域中的應用,指出了激活-擴散模型中典型的四點約束:扇出約束、路徑約束、距離約束以及激活約束。本文試圖在信息檢索領域直接按照激活-擴散模型的本意來描述用戶的認知結構,并把它應用到個性化信息檢索中。
定義1 領域本體:一個領域本體是關于領域知識的概念以及概念之間的關系集合,用二元組定義O={C,S},C表示概念的集合,S表示概念之間的語義關系集合。
要構建用戶的認知結構,需要用戶先給出若干個描述其認知結構的中心概念。
定義2 認知中心概念:由用戶u指定的,描述在該領域內比較關注和掌握的領域本體概念,稱為用戶u認知中心概念。由用戶的認知中心概念構成的集合被稱為用戶的認知中心Vu。
定義3 概念認知深度 DOC(Degree Of Cognition):用戶u對概念Cj賦予一個數值DOCu(Cj),描述對該概念的掌握程度,0 定義4基于領域本體的認知結構模型ObSAM(Ontology based Spreading-Activation Model):給定一個領域本體 O={C,S},θ為用戶認知結構擴展的閾值,Vu是用戶給定的認知中心,用戶u在領域本體上的認知結構模型 ObSAM Ou={C′,S}定義如下: (1)C′={Ci|DOCu(Ci)≥θ} (2)S′={(Ci,Cj)|(Ci,Cj)∈S,Ci∈C′,Cj∈C′} 由于ObSAM模型中,需要根據概念之間的語義相關度刻畫用戶的認知深度,下面引出關于本體中語義關系和語義相關度的形式化定義。 (1)語義等價關系:如果x被定義為y的owl:equivalentClass,則稱 x和 y語義等價,表示為 x≡y或y≡x。 owl:equivalentClass意味著兩個概念有相同的概念外延(即它們包括同樣的實例集合)。 (2)語義父子關系:若x被定義為y的rdfs:subClassOf,則表示 x被y語義包含,忽略概念包含它自身的情況,表示為 x?y。 rdfs:subClassOf意味著屬于x概念外延實例的集合是y概念外延的實例集合的子集。 (3)若 x被定 義為 y的 owl:ObjectProperty或 rdf:Property,則稱 x和 y語義關聯,表示為 y∝x。 Owl:ObjectProperty或 rdf:Property表示 x和 y通過屬性關聯,其中x是域概念,y是范圍概念。 (4)語義相關度(DSA):如果領域本體中從概念 x到概念y存在一種語義關系r,則存在一條從概念x到概念y的有向邊,并且定義wx(y;r)為這條邊上的權值,它表示概念x經r語義關系到概念y的語義關聯程度。 根據本體上兩個相鄰概念之間的語義關系,給出MDSA(Macro Degree of Semantic Association): 領 域 本 體中任意概念之間的語義相關度。定義如下: 其中,Ci==Cj表示Ci和 Cj是同一個概念。根據式(1),對間接相鄰的概念 Cj和 Ci,若 Cj到 Ci只有一條同向可達的路徑,則路徑上的語義相關度乘積便為從Cj到Ci的語義相關度;若Cj到Ci有多條同向可達的路徑,則路徑上的最大MDSA便為從Cj到Ci的語義相關度;若Cj到 Ci不存在同向可達的路徑,則Cj到 Ci的語義相關度為0。 由于用戶指定的認知中心概念數目不會太多,所以用戶可以給出每個認知中心概念的認知深度。設用戶為認知中心概念指定的概念認知深度為 λi,0≤λi≤1。 但是用戶不能給出所有概念的認知深度,下面給出用戶u對任意概念Ci的概念認知深度: 認知中心概念是由用戶指定的,它相對應的概念認知深度也是由用戶給定的。對領域本體中其他的概念,通過式(2)推導出用戶對這些概念的認知深度,即概念認知深度是隨著它們和認知中心概念關聯強度的變化而變化。這種推導方式來源于認知心理學中的激活-擴散模型,即激活擴散的遠近一般由最初被激活節點的激活強度、從最初被激活的節點到目的節點的相關程度等因素影響。 對用戶給定一個深度閾值 θ,0≤θ≤1,并且 0≤θ≤min(λi)(其中 λi為用戶對認知中心概念 Ci給定的概念認知深度)。以用戶的認知中心Vu為中心,可以依據概念相關度在領域本體內進行概念擴展,形成用戶認知結構模型ObSAM,ObSAM從廣度和深度兩個方面描述出用戶在對領域知識的認知程度。 例如,假設用戶u給出認知中心概念為(經濟危機,金融危機),給定相應的認知深度為(1,0.9),指定的深度閾值為0.5。結果在生成的ObSAM中,共有概念為15個(包括2個認知中心概念)。圖1顯示了該用戶關于經濟方面的認知結構。 圖1 用戶的認知結構 根據認知心理學上的激活-擴散模型,基于對領域本體精確豐富的語義關系的分析和利用,ObSAM從深度和廣度入手描述了用戶對領域知識的認知結構。傳統關鍵詞列表在描述用戶個性化需求時,缺乏從完整的體系中考慮并利用關鍵詞之間的語義相關性,因此不能準確地定性分析;而近年來發展的基于本體用戶個性化表示方式,往往是基于大型的概念層次結構如WordNet、Yahoo!等,一方面缺乏對語義關系的精細分析與利用,另一方面由于過于龐大而很難從定量的角度分析利用。利用ObSAM描述用戶個性化需求,一方面從領域知識定性的角度分析用戶對領域知識的認知范圍,另一方面從定量角度分析用戶對領域知識的概念認知深度。表1中列出了ObSAM和其他表示方式的異同。 表1 ObSAM和其他模型的比較 為了表現出在領域本體上構建模型ObSAM比通用本體有優勢,實驗中采用了2個本體進行對比,一個是通用本體WordNet,另一個是經濟學領域本體EO(economic ontology)(假設該領域本體包含所有的經濟領域詞匯)。WordNet的讀取采用了SourceForge開放源碼社區 提 供 的 JWNL接 口(http://sourceforge.net/projects/jwordnet);EO是NSFC資助項目 “通用網上知識編輯器及示范主題語義網研究”的一部分成果,基本包含了經濟學領域的重要概念和關系。 對應于兩種不同的本體,相應采用的測試數據集是:一個是美國國家標準技術局NIST(National Institute of Standards and Technology)與2004年公開發布的TREC2001 Filtering Track中使用的 REuters數據集(http://www.jmlr.org/papers/volume5/lewis04a/lyrl2004_rcv1v2_README.htm),另一個是中國人民大學數字圖書館個性化服務系統DLPers V2.0中的數字資源作為測試數據集。 實驗主要從查詢準確率方面進行評價,查準率采用Precision@n和AP@k來衡量。Precision@n是前n個結果文檔中查詢準確率,用來衡量大多數用戶關注的前n個結果文檔的準確率。AP@k用來衡量前n個結果文檔中相關文檔的排序情況。Precision@n和AP@k在一起能更全面對top-k檢索結果進行評價,因為大多數用戶習慣在檢索過程中主要關注top-k檢索結果[7]。 Precision@n的計算方式是:Precision@n=#of relevant docs in top-n retrieved/n,其中n表示前n個結果文檔;AP的計算方式是:其中,r表示前 k個結果文檔中相關文檔的個數,j表示前k個結果文檔中第j個文檔;rankj表示第j個相關文檔在結果文檔中的排序。通常用戶只關注前20個檢索結果,這里取n=k=20。實驗結果如表2所示。 表2 兩種本體上的查詢準確率對比 本文以認知心理學上的“激活-擴散模型”為基礎,提出了一種基于用戶認知結構的ObSAM模型。它具有以下優點:(1)它是基于領域本體而不是通用本體。由于人類知識的構建本身是分領域進行的,所以基于領域本體更有利于表達用戶的認知結構,可以提供更精確和細致的分析。(2)基于概念之間的概念相關度來合理刻畫出用戶的認知深度,對用戶的個性化需求增加了定量分析,從認知廣度和認知深度兩個方面,加深對用戶個性化需求的理解。 [1]Berners-Lee T, Hendler J, Lassila O.The Semantic Web-A New Form Of Web Content That is Meaningful to Computers Will Unleash a Revolution of New Possibilities[J].Scientific American, 2001, 284(5):34-43. [2]Berners-Lee T,Hendler J.Publishing On The Semantic Web-the Coming Internet Revolution Will Profoundly Affect Scientific Information[J].Nature 2001,410(6832):1023-1024. [3]Middleton S, Shadbolt N, De Roure D.Ontological user profiling in recommender systems[J].ACM Transactions on Information Systems 2004,22(1):54-88. [4]Sieg A, Mobasher B, Burke R, et al.Representing User Information Context with Ontologies[C].In:Proceedings of 11thInternational Conference on Human-Computer Interaction(HCII2005); Las Vegas, Nevada, USA,2005. [5]Chaffee J, Gauch S. Personal Ontologies for Web Navigation[C].In:Proceedings of the ninth international conference on Information and knowledge management;McLean,Va.,USA,2000, P.227-234. [6]梁寧建.當代認知心理學[M].上海:上海教育出版社,2003. [7]田萱,杜小勇,李海華.語義查詢擴展中詞語-概念相關度的計算[J],軟件學報,2008,19(8):2043-2053.2.2 語義相關度

2.3 基本思想



3 實驗
3.1 實驗設置
3.2 實驗評測標準和實驗結果分析
