劉敏健
(廣州市財經職業學校圖書館,廣東 廣州 510030)
基于本體的海量學術文獻資源智能檢索系統研究
劉敏健
(廣州市財經職業學校圖書館,廣東 廣州 510030)
分析了本體技術應用到海量學術文獻資源智能檢索系統的必要性,闡述了本體的關鍵技術,重點研究了此系統的總體結構設計、系統功能、本體構建和檢索過程,最后詳細探討了此系統設計需解決的關鍵問題:本體的管理與服務、信息資源的獲取和文檔的預處理等。
本體海量學術文獻資源智能檢索系統設計
自2001年有了Tim Bern-ers-Lee這個說法后[1],本體就普遍存在于網絡領域,向人們傳遞分享知識,為文獻檢索走向世界打下了基礎,加快了文獻檢索的發展進程。本體(on?tology)并不是實際存在的東西,它可以說明某種東西存在的意義。本體在計算機行業推廣之后,就成為網絡市場上各行各業關注的對象,是計算機和與之相關行業人們重要的研究部分。
本體是一種抽象化的說明,能把某個領域抽象的東西之間進行建立關系,可以把抽象的東西顯得有層次感。將本體和信息檢索相結合,能解決很多人們對概念理解不了的東西。總而言之,信息檢索通過本體可以把事物抽象化、找到建模,所以,本體是智能檢索研究中必不可少的組成部分。
如今網絡技術日益發達,人們對網絡信息的需求量也越來越多,把人們需要的這些網絡信息資源進行有效歸類及整理,還要正確理解人們想要的究竟是什么資源,本研究的重點是怎么從大量的信息中找到自己想要的信息。
1.1現有檢索技術不能滿足信息發展所需
現在,大部分的檢索技術都是通過關鍵詞進行查找。指的是人們寫上關鍵詞以后,系統就會根據你寫的詞語在文獻中進行查找。如果你寫的這個詞語有好幾個意思,檢準率就會受到一定的影響。因此,通過關鍵詞語來查找信息數據,對一詞多義的詞語理解能力還沒有那么高,最后查到的結果會不全而且不準,達不到人們的要求。通過主題分類進行檢索,指人們通過建立好的主題進行查找,但這種方法對信息更新不太方便。以前的信息檢索,因為大部分都是使用一對一的方法,就會有很多檢錯或者漏檢的情況發生,因為系統沒有辦法真正理解詞語的多重意思,只能通過人們寫的關鍵詞進行一對一的檢查。而且現在人們對信息質量的要求越來越高,要快而準地找到所需信息是必然要求,所以要快速找到能夠正確理解語義概念的檢索技術來解決這個問題。
1.2本體檢索技術優勢所在
通過研究發現,人們感覺到了運用語義檢索的好處,使用語義讓檢索更加全面正確,越來越能滿足人們的要求[2]。本體通過語義在智能檢索系統中形成抽象的概念,通過本體為技術核心來建立一個模型,把那些有用的信息資源進行標注,讓系統對那些領域內原來不熟悉的東西進行抽象的認識,這樣讓系統的理解想象能力大為增強,準確性也大大提高,能夠快而準地查找到人們想要的信息,而且還可以讓系統內的全部用戶對此有更深刻全面的認識。所以,本體是語義網必不可少的組成部分,語義上信息之間的分享和交換都需要通過它來完成。本體已經成為智能信息檢索的一種方式,是組成智能檢索系統的主要組成部分。本體還有非常好的層次感和對一些邏輯的推理功能,所以在智能信息檢索中被人們大力推廣。
2.1數據存儲技術
我們都知道有條理的信息庫會非常方便人們查找信息,并且檢索效率也非常高。HTML為Web提供了非常多的信息,HTML語言在很大程度上加快了WWW的進程[3],然而因為HTML沒有層次結構,只是考慮每個元素有沒有顯示出來,并不關心顯示的是什么意思,也就是所謂的語義,因此HTML語言無法推廣到實際運用中。目前新出的標記語言XML有著非常多的好處并且很實用,得到了用戶的一致好評,XML會慢慢代替HTML成為WWW上的主要語言。
XML(eXtensible Markup Language,可擴展標記語言)是通過W3C在1998年2月頒布的一種定義,和HTML類似,是組成SGML的一小部分[4]。因為XML可以把數據信息表達出來而HTML不能,因此很多重要的部門組織機構以及網絡營銷等都在使用它。XML可以讓整體以及個人創建屬于自己的標記信息,而且能夠非常快地運用。現在人們通過XML來評判信息和數據之間的準確性,大部分應用程序都開始向XML進行轉換,例如從PDF到XML、WORD到XML等。所以智能信息檢索系統的數據運用XML文檔進行更加有利。
2.2語義推理
智能信息檢索與以前的方式相比,非常顯著的一點就是運用了語義信息,讓檢索更為明白。領域的自身構造特點以及文檔信息的整理存檔是系統語義推理必不可少的組成部分。智能信息檢索系統中的語義也可以把它叫做機器語義,它和我們平常說話所說的語言是不一樣的。平常說的語義是人們關于某些概念所聯想到的感受,有著多變的、不間斷的還有不太準確這些特征,就像人們看見了“春天”這個詞語,人們腦海中就會浮現與春天相關的信息,是“一年之計在于春”,也可能是“春暖花開,寒冷的冬天要結束了”[5]。但計算機看到春天并沒有這些想法,對計算機來說就是個符號標志。計算機系統只能看懂一些比較簡單的邏輯表達,所以,機器語義大部分是指每個符號和對象之間的聯系,這些符號就是自然語言中人們所免俗的那些對象。領域本體說的是此領域內概念之間的邏輯關系,讓語義推理有規則可循,用XML這個方式存的信息就是需要用來推理的。簡明扼要地說,語義推理過程就是讓計算機認識并且讀懂領域內所表達的概念,再根據上面所說的方法來找到信息庫中人們需要的信息。
以前通過關鍵詞來檢查信息的方法一旦出現錯誤就會功虧一簣,然而智能信息檢索如果沒有檢索成功,通過本體來對這些信息進行推算,還可以再繼續進行檢索,會回到信息庫中與實際結果最近的地方。
2.3檢索結果排序
關于檢索結果的順序問題,是信息檢索出來最后才需要完成的,更是信息檢索系統非常重要的一步。現在的信息技術突飛猛進,假如沒有非常實用的排序方法,就會容易地讓人們在信息中找不到自我。如果在CNKI上查找“本體”,就會出現1827條相關記錄。
信息檢索通過本體來完成,使用智能信息檢索,如果是某個要查找的詞語,把返回的信息進行整理排序,讓最接近的信息放在最前面。智能信息檢索系統檢查出來的結果通過語義進行擴展,不但能檢查到人們寫的關鍵詞信息,還能檢查到與該詞語意思相近的以及附近的詞語[6]。不一樣的信息人們寫檢索詞的方式都不一樣,系統會通過信息之間的關系來進行整理順序。
在領域本體基礎上構建的學術文獻資源智能檢索系統,不僅充分利用了領域本體的知識組織優勢,而且還使用了相似度算法以及自然語言處理技術,實現了學術文獻資源的智能化檢索,不僅使檢索效率得到顯著提高,同時還提升了用戶滿意度。
3.1結構設計
人們在現代化企業生產過程中,最基本的信息處理措施是建立一個Intranet,該網絡是由一組客戶機連接形成的,使用的協議是HTTP以及TCP/IP協議。為了確保該網絡的安全,會在網絡與外界之間設置多道防火墻[7]。筆者為了確保設計的學術文獻資源智能檢索系統能正常運行在Intranet上,特別引入了本體的理論,系統具體的結構如圖1所示。

圖1 智能檢索系統結構
構建的智能檢索系統采用的模型是“客戶-服務器”型,內容包括輸出和輸入界面、啟發式表達式、查詢條件轉換器、本體以及本體解析代理。用戶在客戶端可以進行查詢條件的輸入操作;用Java的小應用程序可以完成輸入界面的編寫,基于Java的編程便于瀏覽器的調用;輸出界面能把系統的查詢結果返回給用戶,其實就是一張由服務器自動建立的二維表,該二維表的存放格式可以是HTML文件,也可以是文檔形式,用戶通過客戶端對存儲的文件進行訪問就可以得到查詢結果。
在服務器的一端存放系統的核心部分,主要內容包括啟發式表達式、本體解析代理、查詢條件轉換器以及本體論。其中啟發式表達式是在本體論基礎上的一組公式,用于啟發信息檢索過程,體現了與傳統查詢系統的區別。本體解析代理能對系統本體進行自動擴展[8]。查詢條件轉換器負責對用戶提交的查詢條件進行接收,并充分結合啟發式表達式,形成本體論的操作指令之后,對本體論進行查找,得出查詢結果后進行二維表的構建并反饋給客戶端。本體論的內容包括本體論結構和數據,其中本體論結構是對各概念的數據結構進行描述,本體論數據包括領域、員工等相互聯系的信息和相關數據,以上本體論數據和結構都在服務器的數據庫中存放。XOL文檔是對本體進行描述的,修改保存該文檔之后,本體接續帶來會把該文檔進行自動的解析和存儲,實現系統本體的修改和擴充。
3.2系統功能
系統資源管理功能主要是對圖書館數據庫中的文獻資源進行管理,首先要語義標注這些科技文獻,通過索引庫的構建,提供資源支持后續的智能檢索模塊。語義檢索的思路主要是把定義的領域本體對科技文獻的篇名、摘要、關鍵字等領域概念進行標注,并把相關度權值賦予到這些概念中,然后把這些領域概念、相關度權值提取出來并在索引庫中存儲。索引庫中包含的內容為文獻資源的標注信息和索引信息,為檢索匹配和查詢擴展過程提供保障。
用戶在檢索系統中完成檢索詞輸入操作之后,對查詢語句系統可以自動開展句法和詞法分析,并充分結合相關的專業術語,把系統可理解的檢索詞生成出來,然后查找檢索詞對應的本體,根據概念描述和相似度算法,擴展處理用戶的檢索詞,把滿足閾值的重要關鍵詞提取出來,根據索引庫中的文獻索引信息系統可以自動地進行匹配操作,獲取相應的檢索文獻列表,然后通過智能排序算法進行檢索結果集合的排序,并把最終結果呈現在用戶面前。
3.3本體構建
在本體論基礎上構建的智能檢索系統,與其他檢索系統最明顯的區別就是本體的應用。系統開發過程中,最重要也是最基礎的工作是建立本體,構建本體的方式可以分為3種,分別為從上到下、從特殊到一般、兩者融合的方式。其中從上到下是始于最一般化的類別,通過往下細分把特殊化的類別挑選出來;從特殊到一般是始于最特殊化的類別,按照類別的特性往上把一般化的類別歸納出來;兩者融合的方式是以上兩種方式的綜合。
在本體基礎上構建的海量學術文獻資源智能檢索系統一共定義了兩個領域本體,分別為文獻本體以及計算機語義詞典本體。從文獻本體來說,主要是針對在線信息檢索開展在語義推理,對用戶輸入的檢索詞利用文獻本體梳理存在的隱含關系,圖2給出了文獻本體的相關片段。

圖2 文獻本體片段
計算機語義詞典本體主要是語義推理文獻資源的離線部分,把檢索到論文元數據提取出來,并描述其中隱含的信息,并在論文元數據庫中進行存儲。在構建領域語義詞典本體時,要采用實用的原則,并在運行中實現系統的完善。圖3給出了計算機語義詞典本體的部分片段。

圖3 計算機語義文獻本體片段
3.4檢索過程
設計的智能檢索系統具體檢索過程如下:首先,語義標注文獻資源,利用領域本體標引該領域的文獻,通過索引庫的構建,提供后續資源支持智能檢索模塊;其次,檢索詞輸入完成之后,系統對檢索關鍵詞進行語義轉換;第三,根據轉換的檢索關鍵詞查找相應的本體,根據本體間關系的描述以及相似度算法,擴展用戶檢索詞并生成檢索詞集合;第四;把滿足閾值的關鍵檢索詞從檢索詞集合中挑選出來,根據索引庫中的文獻索引信息系統可以進行自動匹配,可以在界面顯示檢索詞相關度較高的文獻資源列表,通過智能排序算法系統直接對檢索結果進行排序,并把最終結果反饋給用戶;最后,針對獲得的檢索結果,用戶要開展評價,如果對檢索結果不滿意則重新輸入檢索詞開展新的檢索。
4.1本體的管理與服務
本體概念體系的構建是智能檢索系統實現的基礎,所以首先要解決本體的構建問題,通過形式化描述構建好的本體,對概念相關度矩陣進行構建,并提供服務保障系統其他模塊的運行。本體是智能檢索系統的技術支撐,能對用戶檢索意圖進行理解,有效提升檢索效率。在整個檢索系統中,本模塊既是基礎又是強有力的支撐,要實現的功能如下:首先,按照構建方法,在領域專家的協助下,使用構建工具,把某領域的本體構建出來,并按照一定的數據庫和文件方式存儲本體;其次,對構建好的本體要能夠實現更新操作,目前主要由手工操作完成更新,但要把這些功能接口保留在代碼中,便于日后自動更新操作的實現;再次,讀取存儲的本體并把其中的實例、關系等解析出來;最后,提供檢索、查詢預處理以及文檔預處理服務,把各模塊的接口預留出來,并最終實現模塊間的交互。
4.2信息資源的獲取
網頁資源是智能檢索系統的對象,所以要確保能有足夠的Web信息可供檢索,信息采集模塊可以完成這一任務。互聯網的特性為開放性、分布性以及動態性,但同時網頁上有多樣化的信息組織格式,不利于信息的獲取,所以要引入專門的采集信息工具,在本地的網頁資源文檔庫中收集各種存儲介質信息,提供文檔預處理的素材。這個專門的信息采集工具實際上就是一個網絡應用程序,通過編程完成網頁信息的下載,具體的設計要求如下:能發現新的鏈接并添加到待下載隊列中,程序要具有可配置性,存儲和管理下載的網頁數據,支持對網頁的分析和索引,能夠更新檢查下載的歷史網頁。
4.3文檔的預處理
在信息檢索中文檔預處理是很重要的一環,其結果好壞對信息檢索的結果產生直接的影響。在文檔預處理階段,語義檢索系統的檢索功能能否實現語義向量抽取是其中的關鍵。
中文文檔的語句是由連續漢字組成的,并沒有連續的詞語邊界標志,如果檢索系統不具備中文分詞能力,給出的檢索結果會囊括一些無關的內容,相應地降低檢索準確度。為了使系統性能得到提高,要求系統具備中文分詞功能。系統對抽取信息后的網頁對象執行分詞處理,通過索引的設計可以使檢索速度得到加快,更快地定位網頁,使計算開銷得到有效的減少。索引項是索引的最小信息單位,除了文檔內容之外索引項包含的信息還有建立時間、編碼格式等。
面對海量學術文獻資源中存在的檢索和管理問題,筆者在本體理論的基礎上,與語義信息相結合,著重解決了機器理解語義信息的難題。在本體論基礎上實現的海量學術文獻資源智能檢索系統,在一定意義上能給其他類似系統提供借鑒。
[1]王峰,汪華方.數字圖書館信息檢索技術的智能化發展趨勢[J].現代情報,2008(11):93-95,99.
[2]楊月華,杜軍平,平源.基于本體的智能信息檢索系統[J].軟件學報,2015(7):46-49.
[3]陳欣,李曉菲.基于領域本體的專業文獻信息檢索研究[J].現代圖書情報技術,2009(7):59-64.
[4]王昊,谷俊,蘇新寧.本體驅動的知識管理系統模型及其應用研究[J].中國圖書館學報,2013(1):36-38.
[5]李飛,趙世霞.基于本體的語義信息檢索技術的研究[J].信息與電腦,2010(6):106-107.
[6]馬斌,等.基于本體的智能語義檢索模型設計與研究[J].情報科學,2015(2):73-74.
[7]龐觀松,張黎莎,蔣盛益.跨語言智能學術搜索系統設計與實現[J].山東大學學報:工學版,2011(10):70-76.
[8]賀德方,曾建勛.基于語義的館藏資源深度聚合研究[J].中國圖書館學報,2012(7):113-116.
劉敏健女,1976年生,助理館員。研究方向:數字圖書館、讀者服務。
TP391.1
(2016-03-14;責編:王天泥。)