摘要:通過對(duì)傳統(tǒng)專業(yè)文獻(xiàn)檢索的基本原理和方法的分析研究,結(jié)合目前語義萬維網(wǎng)的最新技術(shù),提出基于本體的專業(yè)文獻(xiàn)檢索體系結(jié)構(gòu)#65377;并開發(fā)基于本體的計(jì)算機(jī)網(wǎng)絡(luò)課程文獻(xiàn)檢索系統(tǒng)#65377;該系統(tǒng)建立了描述課程知識(shí)結(jié)構(gòu)的本體,并能對(duì)各知識(shí)點(diǎn)對(duì)應(yīng)的專業(yè)文獻(xiàn)進(jìn)行同義詞分析#65380;知識(shí)點(diǎn)的相互關(guān)聯(lián)等語義檢索#65377;
關(guān)鍵詞:語義萬維網(wǎng);本體;專業(yè)文獻(xiàn);語義檢索
中圖分類號(hào):TP393.01
文獻(xiàn)標(biāo)識(shí)碼:A
1緒論
傳統(tǒng)文獻(xiàn)檢索都是基于關(guān)鍵字的語法匹配和全文檢索技術(shù),主要借助于目錄#65380;索引和關(guān)鍵詞等方法來實(shí)現(xiàn)#65377;此技術(shù)的優(yōu)點(diǎn)是簡(jiǎn)單#65380;快捷和容易實(shí)現(xiàn),但由于缺乏必要的智能性,在信息快速增長(zhǎng)的今天,難以適應(yīng)時(shí)代發(fā)展的需要#65377;主要體現(xiàn)在:用戶本意表達(dá)困難;無法準(zhǔn)確揭示信息的實(shí)質(zhì)內(nèi)容;檢索算法采用詞形匹配而非詞義匹配;容易形成“詞匯孤島”問題#65377;語義萬維網(wǎng)是目前Internet的發(fā)展方向,是能夠根據(jù)語義進(jìn)行判斷的網(wǎng)絡(luò)#65377;簡(jiǎn)單地說,是一種能理解人類語言的智能網(wǎng)絡(luò)#65377;語義萬維網(wǎng)具有著良好的概念層次結(jié)構(gòu)和對(duì)邏輯推理的支持,現(xiàn)已被廣泛應(yīng)用于知識(shí)表達(dá)#65380;知識(shí)共享及重用#65377;將語義萬維網(wǎng)技術(shù)應(yīng)用到文獻(xiàn)檢索中,即是在文獻(xiàn)資源層上增加了能表達(dá)文獻(xiàn)主要內(nèi)容和學(xué)科結(jié)構(gòu)的語義層#65377;在此基礎(chǔ)上進(jìn)行基于語義的文獻(xiàn)檢索,解決了傳統(tǒng)文獻(xiàn)檢索技術(shù)的缺點(diǎn)和不足#65377;
2關(guān)鍵技術(shù)介紹
2.1語義萬維網(wǎng)及本
體語義萬維網(wǎng)的“語義”信息是蘊(yùn)含在各資源節(jié)點(diǎn)的邏輯聯(lián)系中#65377;其體系結(jié)構(gòu)如圖1所示#65377;
在其體系結(jié)構(gòu)中,第一層是Unicode和URI,它是整個(gè)語義Web的基礎(chǔ),Unicode(統(tǒng)一編碼)處理資源的編碼,URI(統(tǒng)一資源定位器)負(fù)責(zé)標(biāo)識(shí)資源;第二層是XML+名空間+XML模式,用于表示數(shù)據(jù)的內(nèi)容和結(jié)構(gòu);第三層是RDF+RDF模式,用于描述資源及其類型;第四層是本體詞匯,用于描述各種資源之間的聯(lián)系;第五層是邏輯,在下面四層的基礎(chǔ)上進(jìn)行邏輯推理操作;第六層是驗(yàn)證,根據(jù)邏輯陳述進(jìn)行驗(yàn)證以得出結(jié)論;第七層是信任,在用戶間建立信任關(guān)系#65377;其中第二#65380;三#65380;四層是語義Web的關(guān)鍵層,用于表示W(wǎng)eb信息的語義,也是現(xiàn)在語義Web研究的熱點(diǎn)所在#65377;
圖1語義萬維網(wǎng)的體系結(jié)構(gòu)
2.2本體
本體層在語義萬維網(wǎng)體系結(jié)構(gòu)中,處于核心支配地位#65377;本體是概念模型的明確規(guī)范化說明,領(lǐng)域本體則是對(duì)具體領(lǐng)域中概念和關(guān)系的抽象描述,本體提供了語義交換的橋梁,能夠在不同的智能體之間達(dá)成有關(guān)術(shù)語概念的共識(shí),具體到專業(yè)文獻(xiàn)學(xué)習(xí)中的文獻(xiàn)檢索和知識(shí)組織,本體的作用可以概括為以下幾點(diǎn):(1)描述文獻(xiàn)所屬學(xué)科的專業(yè)領(lǐng)域知識(shí)結(jié)構(gòu)#65377;(2)表示文獻(xiàn)內(nèi)容與知識(shí)組織體系之間的鏈接#65377;(3) 利用復(fù)合(集成)本體從不同的角度對(duì)文獻(xiàn)資源進(jìn)行標(biāo)引#65377;(4)利用多種模式表現(xiàn)和理解文獻(xiàn)集合#65377;
3系統(tǒng)結(jié)構(gòu)及實(shí)現(xiàn)
3.1系統(tǒng)結(jié)構(gòu)
為了能具有更好的可擴(kuò)展性,本系統(tǒng)采用三層架構(gòu),由數(shù)據(jù)服務(wù)器#65380;WEB 服務(wù)器和 WEB 終端所組成,整個(gè)系統(tǒng)結(jié)構(gòu)如圖2所示:
圖2系統(tǒng)結(jié)構(gòu)
用戶訪問層為用戶通過瀏覽器訪問學(xué)習(xí)資源管理平臺(tái)提供了一個(gè)可視化的接口#65377;開發(fā)該城所采用的主要技術(shù)包括XHTML#65380;JavaScript#65380;JSP 等#65377;其中XHTML 和JavaScript 主要在客戶端,由瀏覽器執(zhí)行;JSP 則在管理平臺(tái)端,由Weblogic應(yīng)用服務(wù)器執(zhí)行#65377;應(yīng)用服務(wù)器層主要采用Servlet 和EJB 等技術(shù)開發(fā)的應(yīng)用組件構(gòu)成,這些組件完成語義分析#65380;語義推理功能#65377;由于應(yīng)用服務(wù)器層處理的信息主要是XML 格式的RDF/RDFS 信息,因此,采用了HP 公司開發(fā)的Jena API 來處理RDF 模型#65377;數(shù)據(jù)存儲(chǔ)層主要包括三個(gè)部分:領(lǐng)域知識(shí)本體#65380;元數(shù)據(jù)庫(kù)#65380;資源數(shù)據(jù)庫(kù)#65377;這三個(gè)部分涉及到知識(shí)本體的建模#65380;形式化表示#65380;資源語義描述#65380;RDF 數(shù)據(jù)的存儲(chǔ)等內(nèi)容#65377;
3.2本體構(gòu)建
本系統(tǒng)以計(jì)算機(jī)網(wǎng)絡(luò)課程為例,創(chuàng)建了領(lǐng)域本體#65377;該本體描述了計(jì)算機(jī)網(wǎng)絡(luò)課程的基本概念及結(jié)構(gòu),并針對(duì)每個(gè)知識(shí)點(diǎn)提供相應(yīng)的學(xué)習(xí)文獻(xiàn)#65377;
建模工具選用 Protégé3.1,在Protégé3.1 編輯器中,本體結(jié)構(gòu)以樹形的層次目錄結(jié)構(gòu)顯示,用戶可以通過點(diǎn)擊相應(yīng)項(xiàng)來編輯或增加類#65380;子類#65380;屬性#65380;實(shí)例等本體元素,另外,用戶可以不用考慮具體的本體描述語言,而在概念層次上設(shè)計(jì)領(lǐng)域本體模型#65377;
3.3語義解析及推理
在構(gòu)建本體和組織存儲(chǔ)實(shí)例數(shù)據(jù)之后,就需要在應(yīng)用程序中對(duì)其進(jìn)行解析和應(yīng)用#65377;系統(tǒng)選擇RDF 模型進(jìn)行元數(shù)據(jù)語義編碼#65377;根據(jù)領(lǐng)域本體和推理規(guī)則來完成對(duì)有關(guān)元數(shù)據(jù)的推理處理,得出隱含的信息,服務(wù)于后續(xù)的查詢操作#65377;在本體數(shù)據(jù)讀取#65380;語義推理和文獻(xiàn)檢索時(shí),主要采用了惠普實(shí)驗(yàn)室開發(fā)提供的 Jena API 接口方法#65377;
3.4檢索結(jié)果分析
為了使實(shí)驗(yàn)具有可比性,我們?cè)谶M(jìn)行檢索時(shí)使用了兩套檢索方案#65377;第一種是在本體的語義模型上使用同義傳遞規(guī)則和同義對(duì)稱規(guī)則及RDF的上下位包含關(guān)系的可傳遞性規(guī)則進(jìn)行,而第二種則是不加入任何推理成分,僅采用現(xiàn)在最常用的關(guān)鍵字匹配模式進(jìn)行檢索#65377;實(shí)驗(yàn)結(jié)果見表1:
表1檢索結(jié)果統(tǒng)計(jì)
從表中的實(shí)驗(yàn)數(shù)據(jù)看,語義檢索查找得到的文獻(xiàn)數(shù)多于關(guān)鍵字匹配檢索#65377;主要原因在于系統(tǒng)可以根據(jù)用戶指定的關(guān)系進(jìn)行擴(kuò)展查找#65377;如使用“FDDI”作為檢索關(guān)鍵字,在計(jì)算機(jī)網(wǎng)絡(luò)領(lǐng)域中“FDDI”#65380;“ISO 9314”#65380;“光纖分布式數(shù)據(jù)接口”均可視為對(duì)同一事物的不同描述,即同義詞#65377;我們的本體中定義了“FDDI”和“ISO 9314”之間存在同義關(guān)系,“ISO 9314”和“光纖分布式數(shù)據(jù)接口”之間存在同義關(guān)系#65377;語義檢索系統(tǒng)利用同義傳遞規(guī)則會(huì)發(fā)現(xiàn)“FDDI”,“ISO 9314”,“光纖分布式數(shù)據(jù)接口”三者之間是互為同義關(guān)系的,因此這三個(gè)概念都作為檢索關(guān)鍵字#65377;而關(guān)鍵字匹配檢索則只能用“FDDI”來檢索,這將漏選主題詞為“ISO 9314”和“光纖分布式數(shù)據(jù)接口”的資源#65377;
4小結(jié)
專業(yè)文獻(xiàn)的學(xué)習(xí)和檢索在目前網(wǎng)絡(luò)學(xué)習(xí)和遠(yuǎn)程教育中是必不可少的重要環(huán)節(jié)#65377;本文基于本體,通過抽取文獻(xiàn)的元數(shù)據(jù)和專家咨詢建立了文獻(xiàn)元數(shù)據(jù)和學(xué)科領(lǐng)域本體,在此基礎(chǔ)上進(jìn)行語義分析和推理,形成語義索引層,使學(xué)習(xí)者可以在檢索時(shí),不僅能得到與檢索條件精確匹配的信息資源,而且還能查詢到與檢索條件具有語義相關(guān),但在語法上并不精確匹配的隱含信息資源;由于系統(tǒng)的開發(fā)是基于國(guó)際標(biāo)準(zhǔn)的,因此在專業(yè)中的推廣應(yīng)用將會(huì)使其發(fā)揮更大的作用#65377;
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文。