陸虹
(鄭州輕工業學院,河南 鄭州 450002)
由于網絡中的信息浩如煙海、內容龐雜、組織松散,為找到有用信息,人們經常要耗費大量寶貴的時間,人們在信息檢索中普遍遇到了“返回信息過多”與“用戶可用信息過少”的問題。如何協助用戶方便有效地從浩如煙海的網絡信息中獲取有用的信息是非常具有現實意義的一個課題。鑒于此,本文提出了一種基于本體論的個性化網絡信息檢索的模型。
目前人們在利用搜索引擎進行信息檢索的過程中,普遍遇到了“信息過載”的問題,即系統返回的信息量過多,遠遠超過了用戶所能接受和處理的能力。雖然返回的信息數量巨大,但是有相當數量的信息卻并不是用戶所需要的,使得用戶將大量的時間耗費在排除無關的信息上,也就是說搜索引擎的查準率較低;同時,又由于檢索用戶和網絡文檔對同一概念的表達形式往往會有差異,這又導致許多有用的信息用戶無法檢索到,也就是說搜索引擎的查全率也是較低的。造成這一現象產生的根本原因在于當前的搜索引擎存在有以下兩大方面的不足。
現有的搜索引擎提供的檢索方式幾乎都是基于關鍵詞的方式,雖然基于關鍵詞的檢索方式給人們的檢索帶來了很大的方便,但它卻不能很好地表達用戶的檢索需求。這主要表現為:第一,關鍵詞語言是一種自然語言,隨著時間、地域、領域的改變,同一詞匯可以表達不同的語義概念,即“一詞多義”的現象;同一概念也可以使用不同的詞匯表達,即“一義多詞”的現象。第二,在人的大腦中,概念不是孤立存在的,它總是與其它概念之間存在著各種聯系,用戶在檢索一個詞時除了希望得到包含該詞的資源之外,還希望得到與該詞相關的其它信息。在傳統的檢索技術條件下,這種概念關聯的檢索是實現不了的。
現在的搜索引擎對所有的用戶采用的都是同一種模式,不同的用戶只要用相同的關鍵詞進行查詢,得到的結果將會是一樣的。顯然,這樣的搜索引擎個性化能力太差,它沒有考慮到每個用戶的個體差異,不能根據用戶背景、愛好的不同,獲取用戶不同的個性化信息需求,給出不同的檢索結果。
從以上搜索引擎存在的不足我們可以看出,當前的搜索引擎在進行網上信息收集和提供查詢服務方面存在著嚴重的效率和質量問題。本體論作為一種新的知識表示方式,由于具有良好的概念層次結構和對邏輯推理的支持,因而在實現智能化的網絡信息檢索中具有廣闊的應用前景。通過本體論,一方面可以把信息檢索從基于關鍵詞的層次提高到基于概念的層次,從而提高系統的查準率與查全率;另一方面還可以對概念的相關性進行推理,挖掘出用戶的真正需求所在,從而實現智能化的信息檢索。
本文設計了一種基于本體論的智能化網絡信息檢索模型,其基本體系結構如圖1所示。

圖1 一種基于本體論的智能化網絡信息檢索模型
該模型主要由以下幾個部分組成:用戶界面代理、本體論服務器(包括用戶偏好本體論庫、任務本體論庫和領域本體論庫)、智能檢索模塊、文檔分析器、個性化信息索引庫以及智能搜索代理等。
用戶界面代理作為信息用戶與智能檢索模塊之間的接口,除了具有接收用戶提交的檢索請求和智能檢索模塊返回的檢索結果的功能外,它還具有提供用戶對檢索結果進行信息反饋以及對用戶行為進行動態監測的功能。具體表現為:(1)建立用戶個人檔案。當用戶首次登錄時,用戶界面代理要求用戶通過注冊建立起自己的個人檔案,內容涉及用戶身份、知識背景、興趣領域等方面的內容。(2)對用戶行為進行動態監測。對用戶行為的動態監測可以包括:①計算用戶對頁面的瀏覽時間。②記錄用戶對頁面特定部分的操作,如對某一部分的復制。③計算用戶瀏覽頁面距離現在的時間。(3)獲取用戶反饋信息。用戶界面代理建立了用戶對檢索結果的評價機制,鼓勵用戶對檢索結果給出量化的評價值,用于更新用戶偏好本體論庫中的內容。
任務本體論庫以機器可讀的形式描述領域內任務專家的行為知識,闡明處理某一檢索任務的策略、方法和過程,指導計算機自動實現檢索任務目標的完成。當用戶向系統發出檢索請求時,智能檢索模塊根據相應的用戶偏好本體論庫和任務本體論庫,指導檢索過程沿著效果最優的方向進行檢索。為了便于知識的共享和重用,任務本體論應該盡量采用獨立于專業領域的結構設計,即專業領域知識的改變只會影響任務的操作對象,而不會影響任務本身的結構定義。
領域本體論庫中包含著一個領域中最基本的概念、概念的定義以及各個概念之間的語義關系,它通過概念蘊涵、屬性關聯、相互約束和公理定義等方法,組織成具有網狀結構的、可共享的形式化本體論模型。
領域本體論庫在信息檢索系統中的作用主要包括以下三個方面:(1)利用領域本體論庫對網頁文檔進行語義標引。對于智能搜索代理搜索到的網頁信息文檔,文檔分析器首先對其進行特征詞的抽取,然后可以在領域本體論庫的協助下,判斷網頁信息文檔特征詞的所屬領域,將其轉換為本體論中的概念詞,并與網頁文檔建立起映射關系,從而實現對網頁文檔的語義標引。(2)利用領域本體論庫對用戶的查詢請求進行規范和挖掘。當用戶進行查詢時,檢索系統根據用戶的查詢請求,調用領域本體論庫中的相關知識,從中找出與用戶查詢關鍵詞相對應的概念以及所屬領域,供智能檢索模塊生成更精確的查詢,以提高查詢的準確率。(3)利用領域本體論庫構建用戶興趣模型。利用領域本體論庫構建的用戶興趣模型(用戶偏好本體論庫),不僅包含了用戶的興趣概念,而且還包含了用戶興趣概念之間的各種關聯,這樣用戶在進行信息檢索時,系統可以在用戶興趣概念之間進行推理,挖掘出用戶潛在的興趣概念。
用戶偏好本體庫是實現智能化信息檢索的重要構件。通過用戶偏好本體庫,檢索系統可以獲取用戶的興趣所在,確定用戶檢索詞在領域本體論中的位置,從而明確用戶的個性化信息需求,使信息檢索變得更有針對性。具體來講,在用戶輸入檢索詞后,系統將首先把檢索詞提交給相應的用戶偏好本體論庫,查驗是否屬于用戶已有的興趣,如果是,智能檢索模塊將據此在個性化信息索引庫中進行檢索;如果不是,則可將檢索請求與本體論服務器進行交互,使其在領域本體論庫和任務本體論庫的支持下完成信息需求的表達,同時在該用戶偏好本體庫中對這一新的愛好需求進行記錄,方便以后遇到相似的檢索詞時,系統能較快地識別檢索詞所屬的本體論領域,這樣既可以節省用戶檢索的成本,又可以提高系統的檢索效率。
智能檢索模塊的功能是負責整個信息的檢索過程。當智能檢索模塊收到用戶界面代理提交的用戶查詢請求后,它首先將用戶查詢詞語與本體論服務器中的用戶偏好本體論庫進行交互,驗證它是否屬于用戶已有的興趣:(1)若屬于用戶已有的興趣,則將描述該興趣的關鍵詞轉換為相應的領域概念詞,并直接在個性化信息索引庫中進行檢索匹配,當匹配成功完成后,智能檢索模塊就把檢索結果提交給用戶界面代理返回用戶;如果檢索匹配失敗,智能檢索模塊則向智能搜索代理發出查詢請求,由智能搜索代理對網絡信息資源進行相應的搜索。(2)若用戶輸入的查詢詞不屬于用戶已有的興趣,那么智能檢索模塊就借助本體論服務器中的領域本體論庫以及任務本體論庫,篩選出符合用戶信息需求的檢索領域和相關的概念集,并在該用戶的偏好本體論庫中對這一新的愛好進行記錄,然后通知智能搜索代理對網絡上的信息資源進行相應的搜索。
智能搜索代理的主要功能在于對網絡信息資源進行搜索。當智能搜索代理收到智能檢索模塊向其發出的搜索信號時,它首先記錄下智能檢索模塊的檢索請求,以便文檔分析器進行過濾,同時完成對相關網絡信息資源進行搜索的任務。為保持個性化信息索引庫與網絡信息環境更新變化的同步,智能搜索代理可根據要求連續運轉。
文檔分析器的功能主要是對智能搜索代理收集到的網絡信息文檔進行語義概念層次上的分析與過濾,只保留下與用戶相關的網絡文檔,而過濾掉無關的網絡文檔。具體來說,首先,文檔分析器需要對所收集到的每一個新文檔進行網頁特征詞的抽取與加權。網頁特征詞的抽取,一方面可以從網絡文檔的標題、小標題、摘要和關鍵詞中直接抽取,另一方面可以從網絡文檔的正文中抽取,從正文中抽取網頁特征詞時,目前大多是采取基于頻率統計的算法來進行的。其次,對于抽取的這些網頁特征詞,文檔分析器還需要在領域本體論的協助下,將其轉換為本體論中的概念詞語,以明確其真正含義。最后,還要把這些轉換為本體論中的概念詞語與智能搜索代理中記錄的檢索概念詞集進行匹配,只有匹配成功的概念詞語所對應的網絡文檔才是需要保留下來的。將這些保留下來的網絡文檔按照某種規則排序后存入個性化信息索引庫中,供智能檢索模塊進行檢索。
建立個性化信息索引庫是對客觀信息空間的一種抽象,即從中抽取出與用戶相關的信息實體,濾出無關信息。建立個性化信息索引庫不僅滿足了用戶的個性化信息需求,節省了用戶的有限精力,同時也提高了信息檢索的整體效率。
個性化信息索引庫中的網頁信息是按照興趣概念進行存儲的,每個興趣概念都與用戶偏好本體論庫中的興趣概念相對應。當用戶偏好本體論庫中用戶的興趣發生變化時,個性化信息索引庫相應地也會做出調整。在這里,我們假定個性化信息索引庫中包含有一個對自身信息進行管理的管理服務器,管理服務器會把不符合用戶興趣的興趣概念及其相應的網頁信息從個性化信息索引庫中刪去,同時加進用戶新產生的興趣概念等。
本文提出的基于本體論的智能化網絡信息檢索模型的實現,將在很大程度上改進當前搜索引擎存在的不足,不僅可以使檢索系統具有更高的查全率和查準率,而且在一定程度上使檢索系統表現出智能化和個性化。具體主要有以下幾個方面:
(1)由于在檢索系統中加入了用戶偏好本體論庫和領域本體論庫,真正提高了信息檢索的查準率和查全率。借助領域本體論庫,檢索系統可以規范用戶的提問,使用戶的檢索用詞與信息的標引用詞在語義概念層面上達到一致,從而提高信息檢索的查準率;借助用戶偏好本體論庫,通過對用戶興趣偏好的分析,使信息檢索的領域更加明確,同樣也有助于提高信息檢索的查準率;通過用戶偏好本體論庫和領域本體論庫中概念之間的各種關聯,可以對用戶查詢的概念進行擴檢,使信息檢索的覆蓋面更為寬廣,從而提高系統的查全率。
(2)滿足用戶進行智能化和個性化信息檢索的需求。一方面,用戶可以采用自然語言來描述查詢請求,系統利用本體論的推理功能,把出現在用戶查詢中的概念、屬性、公理以及函數等信息進行綜合考慮,挖掘出用戶的真正需求所在,從而實現智能化的信息查詢;另一方面,系統通過對記錄用戶檢索瀏覽行為的日志文件以及用戶反饋的評價信息進行分析,提取用戶的興趣概念,構建用戶的興趣模型,用戶在進行檢索時,系統就可以以該用戶的興趣模型為基礎,更深入地理解用戶的檢索需求,從而進行更有針對性的個性化信息檢索。
[1] 鄭美玉.基于本體論的高校圖書館個性化書目推送系統[J].圖書情報工作,2010(6):108-111.
[2] 李學慶,賈玉文.基于本體論的個性化網絡信息檢索[J].圖書館學研究,2007(1):67-69.
[3] 徐麗.本體論導引下的信息檢索[J].情報雜志,2005(1):121-122.
[4] 昊金紅.一種基于本體論的知識檢索原型系統[J].情報雜志,2004(11):45-46.
[5] 董慧.基于本體論和數字圈韋館的信息檢索[J].情報學報,2003(6):648-649.