劉衛(wèi)寧
(中南民族大學民族學與社會學學院,武漢430074)
語義網(wǎng)環(huán)境下數(shù)字圖書館信息資源集成模型研究
劉衛(wèi)寧
(中南民族大學民族學與社會學學院,武漢430074)
語義網(wǎng);數(shù)字圖書館;信息集成
語義網(wǎng)環(huán)境下數(shù)字信息呈現(xiàn)多樣性、異構(gòu)性等特點,造成了大量冗余信息的產(chǎn)生,這些信息資源關(guān)聯(lián)度低,語義異構(gòu)問題嚴重,影響了用戶獲取信息的體驗和效率。本文為了提高數(shù)字圖書館信息資源集成的質(zhì)量,運用有關(guān)語義網(wǎng)的方法和技術(shù)實現(xiàn)語義網(wǎng)環(huán)境下數(shù)字信息資源的整合、集成,并提出了模型框架,在本質(zhì)上改變現(xiàn)有整合方式的缺陷和不足。
互聯(lián)網(wǎng)的普及、信息資源的數(shù)字化、信息系統(tǒng)的虛擬化,信息的獲取日益方便、簡單和全面,使得用戶能夠比以前更加快捷地查找和獲取所需的信息,導致了信息服務的“非中介化”。[1]加上Web2.0概念的普及,許多Web2.0應用包括博客、微博、社交網(wǎng)站、社區(qū)論壇、維基和視頻/音樂/圖像分享網(wǎng)站等進入人們的視野,用戶原創(chuàng)內(nèi)容(User Generated Content,UGC)網(wǎng)站吸引了眾多用戶,普通用戶的角色開始轉(zhuǎn)變,從信息用戶變成了信息創(chuàng)造者,提供了大量有價值的信息。人類真正步入了信息大爆炸時代。對海量數(shù)字信息資源進行充分的整合、集成,可大大提高用戶使用信息的效率。數(shù)字圖書館正是在這樣的背景下應運而生,并成為評價一個國家信息基礎設施水平的重要標志。
數(shù)字圖書館是基于分布式網(wǎng)絡存在的系統(tǒng),從分布在不同地理位置的數(shù)據(jù)庫中抽取元數(shù)據(jù),建立元數(shù)據(jù)庫,同時對元數(shù)據(jù)庫中的信息進行組織和加工,建立不同領(lǐng)域的本體庫,促進多領(lǐng)域之間的交流和合作,從而實現(xiàn)分布式異構(gòu)數(shù)字信息資源的集成。語義網(wǎng)環(huán)境下實現(xiàn)了對信息資源和它們之間的語義關(guān)系的描述,呈現(xiàn)數(shù)字圖書館信息資源的關(guān)聯(lián)關(guān)系和層次體系,統(tǒng)一標識不同類型的數(shù)字化與非數(shù)字化資源。通過統(tǒng)一的元數(shù)據(jù)標準描述和組織信息,當信息資源增長的時候自動更新和改善領(lǐng)域本體庫,實現(xiàn)了信息的語義推理功能,解決信息的語義異構(gòu)問題。語義網(wǎng)環(huán)境下,以信息用戶的需求為導向,將語義技術(shù)的優(yōu)勢融入數(shù)字圖書館信息資源集成模型的構(gòu)建過程中去,使信息用戶獲取和利用信息的過程與數(shù)字圖書館信息資源集成的流程保持一致,為數(shù)字圖書館信息資源集成模型研究提供了一種新的思路。
有學者提過基于元數(shù)據(jù)的信息資源集成模型,引入本體技術(shù)后又有人提出了基于本體和多Agent的信息資源集成模型,諸如此類的模型很多,但是實際操作性并不強。要么模型過于抽象,不易把握;要么功能模塊過于透明,不易擴展。因此,為了更好地解決信息資源集成問題,本文充分考慮模型的設計目標,遵循模型的設計原則和要求,參照Tim Berners-Lee提出的語義網(wǎng)結(jié)構(gòu)層次模型,探討語義網(wǎng)技術(shù)的特點及其在信息資源集成中的作用,提出了一種新的數(shù)字圖書館信息資源集成模型,該模型共五層,分別是數(shù)據(jù)源層、信息描述和組織層、語義整合層、資源存儲層和用戶交互層,如圖1所示。

圖1 語義網(wǎng)環(huán)境下數(shù)字圖書館信息資源集成模型
該模型在獲取數(shù)字圖書館信息資源的基礎上制定元數(shù)據(jù)標準,使用RDF描述信息,引入語義網(wǎng)中的本體技術(shù)構(gòu)建全局模式,通過RDF/RDFS和OWL賦予信息語義,為了提高本體的語義表達能力,在語義整合層加入語義規(guī)則,實現(xiàn)本體的一致性檢測和語義推理,[2]保證本體的準確性,然后運用數(shù)據(jù)倉庫和本體存儲技術(shù)將數(shù)字信息資源統(tǒng)一存儲在云端,使整合后的信息可以為用戶提供更加優(yōu)質(zhì)的服務。由于信息包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息,在數(shù)據(jù)獲取層需要將非結(jié)構(gòu)化信息和半結(jié)構(gòu)化信息先轉(zhuǎn)化為結(jié)構(gòu)化信息。為了實現(xiàn)信息的標準化描述,在信息描述和標準化層需要制定統(tǒng)一的元數(shù)據(jù)標準,參照元數(shù)據(jù)標準,將數(shù)據(jù)獲取層的信息同時存儲在RDF/XML文件和數(shù)據(jù)庫中,在語義整合層構(gòu)建全局本體,為每個數(shù)據(jù)源分別構(gòu)建局部本體,局部本體的構(gòu)建需要領(lǐng)域?qū)<业膮⑴c和完善,在局部本體與全局本體之間建立映射關(guān)系,創(chuàng)建映射規(guī)則庫,解決語義異構(gòu)問題。將RDF和OWL本體中的信息存儲在數(shù)據(jù)庫中,經(jīng)過ETL后把所有信息可以暫時存儲在ODS(Operational Data Store)中,進一步存儲在數(shù)據(jù)倉庫中,通過統(tǒng)一人機交互界面接入數(shù)據(jù)訪問接口,根據(jù)不同的需求訪問不同存儲形式的信息資源(包括數(shù)據(jù)庫、數(shù)據(jù)倉庫和RDF/OWL文件),實現(xiàn)語義檢索功能,針對不同的使用目的向用戶提供個性化、專業(yè)化和智能化的協(xié)同檢索和推薦服務;智能檢索引擎既能夠訪問數(shù)據(jù)庫和數(shù)據(jù)倉庫,也能夠遍歷RDF/XML和OWL文件中的信息。
3.1 數(shù)字圖書館用戶興趣模型的表示
為了滿足用戶的信息需求和興趣偏好,本文提出的模型需要收集用戶基本信息,構(gòu)建數(shù)字圖書館用戶興趣本體庫,通過用戶興趣本體表示用戶的興趣偏好,采用動態(tài)機器學習機制獲取用戶興趣概念。[3]根據(jù)用戶主動提供的信息以及系統(tǒng)對用戶行為的挖掘和分析(包括分析用戶的Web訪問日志和緩存信息),運用挖掘算法分析用戶的興趣需求,建立高質(zhì)高效的用戶興趣模型,如圖2所示。根據(jù)用戶的實際選擇和反饋信息對已經(jīng)建立的用戶興趣模型進行修正,確保用戶興趣模型能夠自我更新和不斷完善,從而使得最終的用戶興趣模型能全面而準確地反映用戶的興趣。系統(tǒng)按照初步建立的模型把檢索到的信息推薦給用戶,根據(jù)用戶模型對文本進行預處理后形成的關(guān)鍵詞集合進行過濾,同時發(fā)掘具有共同興趣的用戶群,為數(shù)字圖書館用戶提供個性化、專業(yè)化和智能化的協(xié)同檢索和推送服務。

圖2 數(shù)字圖書館用戶興趣模型的構(gòu)建過程
用戶興趣模型描述了用戶的興趣偏好,同時根據(jù)用戶對信息的反饋和評價,更新用戶模型,從而更新知識產(chǎn)品。構(gòu)建用戶興趣模型需要分析用戶獲取信息的方式,借助領(lǐng)域本體準確、規(guī)范地描述用戶感興趣的信息,建立用戶興趣挖掘模型,向用戶提供所需的信息。數(shù)字圖書館用戶興趣挖掘運用適當?shù)耐诰蛩惴?,計算分析用戶瀏覽網(wǎng)頁時留下的日志記錄信息,發(fā)現(xiàn)用戶感興趣的內(nèi)容。
用戶訪問數(shù)字圖書館會產(chǎn)生日志記錄文件,包括訪問日志、引用日志、代理日志和錯誤日志等。日志文件中記錄了大量的用戶訪問信息,包括用戶的ⅠP地址、訪問時間、瀏覽頁面URL、請求方式和字節(jié)數(shù)等,還有網(wǎng)站服務器接受、處理請求以及運行錯誤等多種信息。通過挖掘相關(guān)的Web日志記錄,可以發(fā)現(xiàn)用戶訪問Web頁面的模式;通過分析日志中的記錄規(guī)律,可以識別用戶的忠誠度、喜好、滿意度,發(fā)現(xiàn)潛在用戶,改進服務效果,提高服務競爭力。通過用戶提供的信息,結(jié)合用戶的瀏覽行為和訪問日志獲得用戶的偏好,利用本體庫中的相應概念表示用戶模型,根據(jù)模型將符合條件的內(nèi)容推薦給用戶,并在相關(guān)反饋的基礎上改進用戶模型。
3.2 數(shù)字圖書館領(lǐng)域本體的構(gòu)建
領(lǐng)域本體庫包含著一個領(lǐng)域中最基本的概念、概念的定義以及各個概念之間的語義關(guān)系網(wǎng)絡,它在整個語義檢索過程中起著非常重要的作用。領(lǐng)域本體確定了該領(lǐng)域內(nèi)普遍認同的確切概念,通過對概念之間的關(guān)系進行語義描述,使用戶與機器之間的交流上升到語義層次。用戶在進行查詢時會調(diào)用領(lǐng)域本體庫,從中找出與關(guān)鍵詞相對應的概念所在的領(lǐng)域,將該領(lǐng)域下的相關(guān)概念提供給用戶,幫助用戶生成更精確地查詢,提高查詢效率;領(lǐng)域本體的構(gòu)建方法如圖3所示。

圖3 領(lǐng)域本體構(gòu)建
Noy和Hafner提出了本體構(gòu)建的七個步驟:確定領(lǐng)域和范圍;重用現(xiàn)有本體是否可行;列出本體中的重要術(shù)語和主題詞;定義類和類的繼承關(guān)系;定義屬性和關(guān)系;定義屬性的限制;構(gòu)建具體實例。[4]
領(lǐng)域本體庫構(gòu)建完成之后,運用SWRL和描述邏輯對構(gòu)建的領(lǐng)域本體進行推理得出隱含的信息,同時完成一致性檢測。例如,在某領(lǐng)域本體庫中,許多概念具有交叉相關(guān)性,因此,在構(gòu)建本體過程中,需要定義概念之間的邏輯關(guān)系,使用推理機制完成概念相互關(guān)系的說明,避免概念的重復構(gòu)建,保持概念應有的邏輯關(guān)系。領(lǐng)域本體庫的構(gòu)建不是一勞永逸的,因為數(shù)字圖書館信息資源是動態(tài)變化的。因此,必須根據(jù)數(shù)字圖書館信息資源的變化及時調(diào)整和更新已經(jīng)構(gòu)建的本體,維持領(lǐng)域本體在整個系統(tǒng)中的作用,不斷適應用戶的需求。需要利用推理機對本體進行預處理以消除沖突,選擇利用Racer推理機來對本體的概念和實例進行層次分類和調(diào)整,消除本體內(nèi)部不一致性沖突,從而形成一個完整、有效的OWL知識庫。從OWL本體和SWRL規(guī)則庫到Jess事實庫和規(guī)則庫,要經(jīng)過事實轉(zhuǎn)換和規(guī)則轉(zhuǎn)換。由于Jess推理機不能識別OWL格式的本體和SWRL格式的規(guī)則,所以在進行推理之前,要對OWL本體和SWRL規(guī)則進行轉(zhuǎn)換。Jess推理引擎是推理過程的核心部分,它基于事實庫和規(guī)則庫進行推理,從而得出新的事實。然后,將新的事實添加進原來的本體中,令原本體中隱含的語義關(guān)聯(lián)得到顯性化,從而為數(shù)字信息資源的智能檢索、個性化推送等功能打下基礎。
常用的規(guī)則推理引擎有Jess、CLⅠPS、Prolog等,而目前還沒有專門針對SWRL的推理引擎。Jess(Java Expert System Shell)由推理機、事實庫和規(guī)則庫三部分構(gòu)成,支持正向推理和后向推理。盡管Jess不支持基于OWL的本體和基于SWRL的規(guī)則,但是我們可以將OWL本體和SWRL規(guī)則轉(zhuǎn)換成Jess推理引擎能夠識別的格式。基于SWRL的本體推理過程如圖4所示。

圖4 基于SWRL的推理
利用領(lǐng)域本體對數(shù)字信息資源進行標引,即對文檔集進行內(nèi)容抽取并分析特征詞,建立概念集之間的關(guān)聯(lián),形成具有語義關(guān)聯(lián)的知識庫。本體提供了學科領(lǐng)域的概念、概念之間的關(guān)聯(lián)以及領(lǐng)域的核心理論,可以通過本體將信息資源組織成具有網(wǎng)狀結(jié)構(gòu)的、可共享的知識結(jié)構(gòu)體系,表達顯性和隱性的語義信息。這樣文獻資源能夠被更好地組織和劃分,概念間的語義關(guān)聯(lián)也能被精確定義,為實現(xiàn)知識推理和智能化檢索提供了鋪墊。借助領(lǐng)域本體對信息集合進行語義分析與標注后,形成具有語義關(guān)聯(lián)的資源元數(shù)據(jù)集合,然后存入本體知識庫。
3.3 數(shù)字圖書館元數(shù)據(jù)描述框架
對數(shù)字圖書館不同數(shù)據(jù)源的元數(shù)據(jù)信息分別進行提取,借助XML/RDF文檔加以組織,在無人工干預的情況下,參照原有的數(shù)字圖書館元數(shù)據(jù)標準重新定義,提取不同的應用模式,并存儲在元數(shù)據(jù)庫中。由于RDF模式(RDFS)具有開放性,用戶可以自行定義和擴展RDF模式,通過XML/RDF對信息資源進行無二義性的描述。為了保護現(xiàn)有的數(shù)字圖書館信息資源,充分挖掘數(shù)字信息資源,數(shù)字圖書館適宜采用多種元數(shù)據(jù)標準并存的方法。
可行的方案是以Dublin Core元數(shù)據(jù)為核心元數(shù)據(jù)庫,多種對應于不同資源類型的元數(shù)據(jù)方案并存,并以基于XML語法的RDF/RDFS語言將它們封裝在一起,使基于該模型的元數(shù)據(jù)資源能夠為機器所理解,如圖5所示。

圖5 數(shù)字圖書館元數(shù)據(jù)描述框架
該元數(shù)據(jù)描述框架是一個靈活可擴展的元數(shù)據(jù)方案,主要是利用RDF將多種不同類型的元數(shù)據(jù)進行封裝,既充分保留和利用了數(shù)字圖書館中原有的元數(shù)據(jù)信息,也確保了對不同類型的資源性元數(shù)據(jù)描述。此外,RDF具有開放、標準和統(tǒng)一的特性,為將來數(shù)字圖書館信息資源的遷移奠定了良好的基礎。由于不同類型的元數(shù)據(jù)集合之間往往需要進行互操作以完成應用需求,定義一個統(tǒng)一的元數(shù)據(jù)庫是十分必要的,有利于實現(xiàn)不同元數(shù)據(jù)集之間的轉(zhuǎn)換和映射。
3.4 數(shù)字圖書館信息資源存儲平臺的搭建
數(shù)字信息資源的存儲需要搭建一個云計算平臺,將所有信息存儲在云端,數(shù)據(jù)倉庫和本體存儲技術(shù)實現(xiàn)了資源的云存儲,云存儲是一個以數(shù)據(jù)存儲和管理為核心的云計算系統(tǒng)。通過云計算機技術(shù)存儲整合后的信息,能夠為用戶提供更加優(yōu)質(zhì)高效的服務。
數(shù)據(jù)庫中的信息通過抽取、清洗和轉(zhuǎn)換等ETL過程存儲在ODS、數(shù)據(jù)集市和數(shù)據(jù)倉庫中,可以根據(jù)需要進行多次數(shù)據(jù)處理;多媒體文件存儲在多媒體資源庫;網(wǎng)絡信息資源在預處理后參照元數(shù)據(jù)標準存儲在本體中,表現(xiàn)形式為XML、RDF和OWL文件,RDF信息最為直觀,XML其次,OWL最為復雜,進一步可以將這些文件中的信息存儲在數(shù)據(jù)倉庫。通過開源框架可以進行本體存儲,常用的有Jena和Sesame。如果是使用Oralce這樣的支持語義功能的數(shù)據(jù)庫,則需要將RDF/XML和OWL文件先轉(zhuǎn)換為N-triples格式才能存儲。
本文探討了語義網(wǎng)技術(shù)在數(shù)字圖書館信息資源集成中的作用,并運用語義網(wǎng)技術(shù)解決了數(shù)字圖書館信息資源集成中的信息表示和語義異構(gòu)問題,提出了一種基于語義網(wǎng)技術(shù)的數(shù)字圖書館信息資源集成模型。該模型具有很強的可操作性,各個層次完成相應的工作,通過層與層之間的接口緊密結(jié)合,從而實現(xiàn)數(shù)字圖書館信息資源的整合,旨在為用戶提供更加優(yōu)質(zhì)的個性化服務??紤]到數(shù)字圖書館信息資源的多樣性、復雜性、海量數(shù)據(jù)和個性化等特點,該模型力求抽象,為進一步的完善和擴展打下基礎。
[1]張曉林.走向知識服務——尋找新世紀圖書情報工作的生長點[J].中國圖書館學報,2000(5):32-37.
[2]唐曉波,金鐘鳴.基于本體與規(guī)則的語義推理研究[J].情報學報,2011,30(7):695-703.
[3]左暉,等.個性化知識服務中基于Ontology的用戶興趣挖掘研究[J].情報學報,2008,27(1): 18-23.
[4]NoyN,HafnerC.The stateoftheartinontologydesign[J].AⅠMagazine,1997,18(3):53-74.
G250.76
A
1005-8214(2014)01-0086-04
劉衛(wèi)寧(1975-),男,漢族,山東棗莊人,中南民族大學民族學與社會學學院博士生。
2012-09-27[責任編輯]王鈞梅