〔摘 要〕針對目前傳統(tǒng)數(shù)字圖書館無法為用戶提供準(zhǔn)確個性化服務(wù)的問題,提出通過本體構(gòu)建智能數(shù)字圖書館,并且分析如何通過本體的作用使傳統(tǒng)的數(shù)字圖書館達(dá)到智能個性推薦的基本原理,最后重點(diǎn)分析基于本體的個性推薦中的關(guān)鍵性問題,即用戶本體的構(gòu)建——讀者用戶本體庫,包括用戶基本信息本體、用戶個性本體和用戶需求本體,并用六元組表示方法實(shí)踐本體的表示,以及通過流程圖詮釋本體間的作用機(jī)制。
〔關(guān)鍵詞〕本體;智能圖書館;個性推薦;用戶本體
〔中圖分類號〕G250.76 〔文獻(xiàn)標(biāo)識碼〕C 〔文章編號〕1008-0821(2009)12-0061-05
Research on User Ontology in Personalized Recommendation
of Ontology-based Intelligent Digital LibraryDing Xue Zhang Yufeng
(Research Center of Information Resources,Wuhan University,Wuhan 430072,China)
〔Abstract〕The library has developed into a new kind:digit library,which means a great progress to the librarys development,but the current one still can not provide library users with accurate and flexible services,such as the personalized service that it can accordingly provide recommendation service to different readers of different habits and interest.To solve this problem,this paper proposed the ontology-based digit library——apply the ontology technology into the construction of traditional digit library,and analyzed the principles how it made the traditional digit library provide intelligent personalized recommendation to readers through ontology.Finally it mainly focused on the key issue——how to build up the user ontology,which was divided into three small different but relative ontology,including users basic information ontology,users personalization ontology and users requirements ontology.In order to make ontology presentation more clearly,this paper especially used the six-tuple method to represent and practice these three ontology.Furthermore it used ontology flowchart to interpret the mechanism how one ontology acted on another one.
〔Keywords〕ontology;intelligent library;personalized recommendation;user ontology
數(shù)字圖書館是信息時代重要的信息基礎(chǔ)設(shè)施和知識獲得的傳播工具。但是隨著各種數(shù)字技術(shù)迅速發(fā)展,我國絕大多數(shù)數(shù)字圖書館的信息檢索技術(shù)還是停留在基于字詞的關(guān)鍵詞查找和全文檢索技術(shù)。雖然此技術(shù)的優(yōu)點(diǎn)是簡單、快捷,但其存在較突出的問題[1]:第一,“忠實(shí)表達(dá)”問題。很多情況下,用戶很難簡單的用關(guān)鍵詞或者關(guān)鍵詞串來忠實(shí)的表達(dá)他所真正需要檢索的內(nèi)容,表達(dá)困難導(dǎo)致檢索困難。第二,“表達(dá)差異”問題。人類的自然語言中,隨著時間、地域或領(lǐng)域的改變,同一概念可以用不同的語言表現(xiàn)形式來表達(dá)。因此,對同一概念的檢索,不同的用戶可能使用不同的關(guān)鍵詞來查詢,而傳統(tǒng)信息檢索技術(shù)則很難解決同義詞查詢的問題。第三,“詞匯孤島”問題。在人的大腦中,概念并不是孤立存在的,它總是與其他概念之間存在各種各樣的聯(lián)系。在傳統(tǒng)信息檢索中,這種概念之間的聯(lián)系是無法表示的。第四,“個性化”問題。用戶并不能在查找相關(guān)資料時,獲得相應(yīng)的與之興趣相關(guān)的推薦。而造成這些問題的實(shí)質(zhì)原因在于傳統(tǒng)的信息檢索技術(shù)所采用的只是基于語法層面上的字、詞的簡單匹配,而缺乏對知識的表示、處理和理解能力。解決這些問題的關(guān)鍵在于把檢索機(jī)制從傳統(tǒng)的關(guān)鍵字層面提高到知識(或語義)層面上。而本體(Ontology)就可以解決以上問題,它可以提供對高層認(rèn)知的支持[2];通過概念和詞間關(guān)系實(shí)現(xiàn)智能檢索;不需要復(fù)雜的布爾邏輯規(guī)則而自適應(yīng)不同人的知識要求,達(dá)到智能化的個性推薦目的。這些正是基于本體構(gòu)建的數(shù)字圖書館的優(yōu)點(diǎn)。雖然本體在人工智能、知識表示中已經(jīng)被廣泛討論和實(shí)踐,但我國數(shù)字圖書館研究領(lǐng)域多局限在概念的界定和初步的理論研究層面上[1];另一方面,智能推薦雖然被應(yīng)用于電子商務(wù)網(wǎng)站,但是“移植”到數(shù)字圖書館的研究還是起步階段,而且也多是對于系統(tǒng)框架結(jié)構(gòu)和理論層面這樣相對宏觀的研究,與本體結(jié)合的相關(guān)研究也更是如此。因?yàn)橄嚓P(guān)智能推薦系統(tǒng)框架討論得很成熟,文章就不做重復(fù)的工作,而將進(jìn)行具體問題的分析。所以本文首先將簡單闡述何謂智能數(shù)字圖書館以及其如何對不同用戶進(jìn)行個性推薦,然后分析通過本體這一技術(shù)如何使圖書館達(dá)到智能化個性推薦,和這其中需要解決的兩個關(guān)鍵的本體構(gòu)建問題,希望能對智能數(shù)字圖書館的建設(shè)和應(yīng)用提供幫助。
1 智能數(shù)字圖書館概述
1.1 基本概念數(shù)字圖書館最早起源于1994年,時至今日,它已成為全球知識倉儲和未來信息交流的渠道,成為所有人訪問、討論、評估和利用各種形式的信息資源的公共工具[3]。信息資源從原來單一簡單的形式發(fā)展為海量化、復(fù)雜化和多樣化的形式,數(shù)字圖書館的建設(shè)從最初的文獻(xiàn)資源數(shù)字化為核心發(fā)展到以為讀者提供知識為中心,讀者的需求從原來的簡單瀏覽文獻(xiàn)的需求發(fā)展到現(xiàn)在的個性化的知識獲取需求,讀者面對信息資源從原來的單一缺乏到現(xiàn)在的“信息迷失”,相應(yīng)地,數(shù)字圖書館也要進(jìn)入新的階段——知識階段。它需要從原來的簡單的基于關(guān)鍵字的文獻(xiàn)搜索工具,發(fā)展為自動發(fā)現(xiàn)知識和幫讀者獲取知識的工具,它需要滿足讀者更加個性化、專業(yè)化和智能化的服務(wù)需求。這就需要新一代的數(shù)字圖書館——智能圖書館(Intelligent Library,簡稱IL)來滿足新的發(fā)展要求。它雖然沒有明確的定義,但是國內(nèi)外很多專家學(xué)者在研究中越來越多的提到。它不僅僅是硬件上的構(gòu)建,更多的是一種服務(wù)上的改變。IL將人工智能的原理運(yùn)用到數(shù)字圖書館,它的重點(diǎn)在于智能推薦的作用,它不僅可以自動建立用戶模型,并且可以自動更新模型,同時省去了用戶在大量資源中手工檢索和閱覽的時間和精力,它將最大程度地自動分析獲取用戶的興趣,針對用戶的需求相應(yīng)地從信息源中抽取信息并過濾推送給用戶最感興趣、更具針對性的信息[4],提供更個性化和專業(yè)化的讀者服務(wù)。
1.2 個性推薦原理個性化推薦是在對用戶的信息需求、興趣愛好、檢索行為和決策方式的理解基礎(chǔ)上,針對用戶個性行為進(jìn)行的推薦[5]。其目標(biāo)是提供智能的個性化推薦系統(tǒng),該系統(tǒng)在推薦機(jī)制上,由用戶信息模型、個性檢索模塊、數(shù)據(jù)資源模塊、反饋模塊構(gòu)成。因?yàn)橹皇呛唵蔚仃U述個性推薦原理,所以只談到最基本的推薦原理。系統(tǒng)的功能結(jié)構(gòu)圖如圖1所示。
1.2.1 用戶信息模型通過用戶的自設(shè)置或者自動檢測,本文更傾向于智能圖書館檢測用戶的瀏覽行為,如:點(diǎn)擊網(wǎng)頁、收藏等、評價行為,自動發(fā)現(xiàn),了解和獲取用戶信息需求和用戶檢索行為、興趣習(xí)慣、檢索歷史、學(xué)科領(lǐng)域等情況,自動創(chuàng)建用戶信息需求模型。
1.2.2 個性檢索模塊功能是匹配用戶的個性信息與當(dāng)前的信息需求,給用戶提供可由用戶自己選擇定制的檢索方法,或由系統(tǒng)智能分析后提供檢索策略,本文更注重智能圖書館自動提供后臺檢索策略。
1.2.3 數(shù)據(jù)資源模塊電子文獻(xiàn)、電子視頻等多媒體數(shù)據(jù)信息資源的存儲。
1.2.4 反饋模塊在個性檢索代理模塊的協(xié)助下,完成個性化查詢之后推薦,整理結(jié)果給用戶需要的形式,然后提交結(jié)果給用戶接口,并且實(shí)時動態(tài)更新用戶信息模型。
2 面向本體的智能數(shù)字圖書館
2.1 引入本體構(gòu)建的原因本文旨在研究智能數(shù)字圖書館的個性推薦問題,因?yàn)檫@是智能化的最基本也是最關(guān)鍵的問題,而又是面向本體的,因此有必要解釋為什么要用引入本體。
2.1.1 數(shù)字圖書館自身原因現(xiàn)在的數(shù)字圖書館字圖書館的傳統(tǒng)應(yīng)用是基于關(guān)鍵詞的,用戶通過輸入一些關(guān)鍵詞請求信息,系統(tǒng)返回匹配文檔。但用戶的希望不僅于此。用戶通常都有引起預(yù)先考慮的假設(shè)和專業(yè)知識領(lǐng)域。他們可能希望圖書館來確認(rèn)或否定他們存在的假設(shè),或去檢查是否有一些對先前存在的概念意料之外的或反證的文檔證明。由此帶來的問題是:首先,用戶不易于用簡單的關(guān)鍵詞來表達(dá)他們的意愿;其次,基于關(guān)鍵詞的搜索通常返回太多與用戶意愿無關(guān)的結(jié)果[2]。
2.1.2 傳統(tǒng)推薦技術(shù)原因傳統(tǒng)的個性化推薦方法有關(guān)聯(lián)規(guī)則,基于內(nèi)容和協(xié)同過濾這些推薦技術(shù)。國內(nèi)外已經(jīng)研究得很多,這里就不詳述。要實(shí)現(xiàn)個性化服務(wù),必須解決兩個關(guān)鍵問題:(1)如何有效地描述用戶的服務(wù)請求;(2)如何實(shí)時、準(zhǔn)確地獲得和反饋反映用戶服務(wù)的請求信息[6]。傳統(tǒng)的個性化方法雖然能夠在一定程度上解決這兩個問題,但它們大都是基于事務(wù)數(shù)據(jù)庫而實(shí)現(xiàn)的,不能為用戶提供基于語義的、更加靈活的個性化服務(wù)。而本體技術(shù)可以提供用戶在不同領(lǐng)域的訪問偏好,從而為用戶提供準(zhǔn)確而靈活的智能化服務(wù)。
2.2 本體的概述
2.2.1 本體的定義本體在學(xué)術(shù)界有很多定義,就不一一描述,這里引用《本體與數(shù)字圖書館》[7]的一個更為通俗易懂的概念:“我們認(rèn)為,本體是對客觀世界全部或一部分的概念化和結(jié)構(gòu)化的明確表示與描述。概念化對象是對世界的一些抽象且簡明化的觀點(diǎn),概念化對象是領(lǐng)域知識,包括概念的靜態(tài)狀態(tài)及其動態(tài)運(yùn)動過程等知識?!?/p>
2.2.2 本體的構(gòu)造法則對同一領(lǐng)域,同一事物,不同人往往會建立不同的本體。由于本體應(yīng)該是規(guī)范化的描述,因此遵循統(tǒng)一的構(gòu)造準(zhǔn)則是必要的。目前最為常用的是Gruber提出的指導(dǎo)本體構(gòu)造的5個準(zhǔn)則[8]:清晰(Clarity):本體必須有效的說明所定義術(shù)語的意思。一致(Coherence):本體應(yīng)該是一致的,也就是說,它應(yīng)該支持與其定義相一致的推理。可擴(kuò)展性(Extendibility):本體應(yīng)該為可預(yù)料到的任務(wù)提供概念基礎(chǔ)。編碼偏好程度最小(Minimal encoding bias):概念的描述不應(yīng)該依賴于某一種特殊的符號層的表示方法。本體約定最小(Minimal ontological commitment):本體約定應(yīng)該最小,只要能夠滿足特定的知識共享需求即可。
2.2.3 本體的表示目前有兩種本體表示方法應(yīng)用比較廣泛,一是傳統(tǒng)的四元素表示方法、二是較新的六元組表示法。本文將采取六元組表示方法在后文中表示要構(gòu)建的本體,因此這里介紹六元組的本體表示方法[9]:本體是一個六元組,0={C,AC,R,AR,H,X},其中,C為概念集合,AC為屬性集,對應(yīng)每個概念一個屬性集,R為關(guān)系集,AR為關(guān)系屬性集,每個關(guān)系對應(yīng)一個自己的屬性集,H為概念層次,X為公理集。C中的每個概念ci表示相同類型的對象的集合,能夠被由AC(ci)表示的這些對象的屬性集來描述;R中的每個關(guān)系ri(cp,cq)表示了概念cp和cq之間的二元關(guān)系,這種關(guān)系的實(shí)例是(cp,cq)概念對象對;ri的屬性由AR(ri)來表達(dá);H是從C中抽取出來的概念層次結(jié)構(gòu),是C中概念的一些父/子(超類/子類)關(guān)系集合,如果cp是cq的子類或者子概念,那么(cp,cq)∈H;X中的每個公理是對本體中的概念、關(guān)系屬性值,或者概念對象之間的關(guān)系的限制[10]。
2.3 面向本體的個性推薦的原理和主要問題將本體運(yùn)用到智能數(shù)字圖書館的的推薦框架和傳統(tǒng)推薦系統(tǒng)大致相同,只是推薦的技術(shù)發(fā)生了變化。而個性化推薦中最重要的就是用戶建模、個性化推薦算法和資源本身的描述問題。因?yàn)橛脩艚jP(guān)系到個性推薦的準(zhǔn)確問題,對用戶描述的越準(zhǔn)確,推薦程度越準(zhǔn)確;而個性化推薦算法本身則關(guān)系到推薦的質(zhì)量問題;資源本身描述的問題則是整個推薦的基礎(chǔ),直接關(guān)系到推薦的實(shí)質(zhì)內(nèi)容??梢钥吹綀D2,它是面向主體的個性推薦基本原理,與傳統(tǒng)推薦技術(shù)的推薦流程并沒有很大不同,但是前文提到,用戶建模、個性化推薦算法和資源本身的描述是推薦的關(guān)鍵。推薦算法國內(nèi)外很多專家都有成熟的研究,這里就不贅述。而數(shù)字圖書館資源非常龐大,構(gòu)建本體需要大量詞表和手工構(gòu)建,而且相對用戶建模而言,用戶的信息本體更為重要。因此后文重在運(yùn)用本體的方法解決數(shù)字圖書館中用戶建模問題。
圖2 面向個性的個性推薦原理3 數(shù)字圖書館用戶本體數(shù)字圖書館用戶本體庫由以下3種本體構(gòu)成:用戶基本信息本體[11](PrO)——詳細(xì)介紹用戶基本信息內(nèi)容的本體。用戶個性化本體[11](PeO)——定義為描述用戶在確定的階段的興趣元素的本體。用戶需求本體[11](ReO)——描述詳細(xì)的作業(yè)需求的本體。例如局部的特征、必要條件和約束條件等。
3.1 用戶基本信息本體(PrO)用戶基本信息本體(PrO)用于詳細(xì)描述讀者用戶的內(nèi)容。讀者用戶的主要內(nèi)容是刻畫用戶的個人基本信息[11]。用戶基本信息本體主要包括用戶的名字、年齡、性別、專業(yè)、用戶類型、電話號碼、職業(yè)等。對于每一個概念,相應(yīng)的特性被創(chuàng)建,這些概念通過子概念來更詳細(xì)地描述。比如:對于職業(yè)這個概念的子概念可以是老師、學(xué)生和科學(xué)家等。因?yàn)檫@個本體下面要擴(kuò)展的屬性過多,結(jié)構(gòu)層次比較簡單,因此在此就不用六元組的本體表示方法表示。
3.2 用戶個性化本體(PeO)
3.2.1 本體內(nèi)容用戶個性化本體(PeO)用來描述用戶在自己領(lǐng)域內(nèi)的興趣[11]。用戶個性化本體的描述是精確到每個用戶,因此我們利用個性化本體去幫助處理簡單的任務(wù)推理。用戶個性化本體包含用戶個性的組合,所以軟件能夠根據(jù)用戶的個性化本體推斷出用戶的興趣所在。
3.2.2 本體構(gòu)建和表示用戶個性本體PeO={Cu,Acu,Ru,ARu,Hu,Xu},其中,Cu為用戶興趣的概念集合,Acu為屬性集,對應(yīng)每個用戶興趣一個屬性集,Ru為用戶興趣之間的關(guān)系集,ARu為關(guān)系屬性集,對應(yīng)每個關(guān)系一個,Hu為用戶興趣層次,Xu為用戶興趣公理集。其余為定義的屬性和概念名稱[11]。(1)概念集合:Cu={activity,user,project,domain}其中:activity為用戶的瀏覽活動;user為用戶;project可以視為用戶感興趣的某一文獻(xiàn)或者相關(guān)資源;domain為用戶感興趣的領(lǐng)域。(2)概念的屬性集:Acu={Acu(activity),Acu(user),Acu(project),Acu(domain)};Acu(activity)={topic,activityld};Acu(user)={Id,name,interesting,userlevel,usertype};Acu(project)={title,sponsor,researchfield,publication};Acu(domain)={name,keyword,expert,book}其中:“{}”內(nèi)為Acu(i)的具體屬性,為字面意思。(3)概念之間的關(guān)系:Ru={memberof(user,activity),include(activity,user),like(user,domain),participation(User,project)}其中:memberof(),include(),like(),participation()為自定義的動態(tài)角色,按照字面意思解釋。(4)關(guān)系的屬性:ARu={ARu(participatein),ARu(mernberof),ARu(like)}ARu(participatein)={starttime,role,endtime};ARu(membemrof)={starttime,endtime};ARu(like)={starttime,endtime};其中:ARu(i)為關(guān)系屬性,屬性可以按字面意思解釋。(5)概念層次結(jié)構(gòu)省略(6)公理。我們首先定義like(x,d)表示用戶對x以一定程度d感興趣。Xu={Synonymy(x,y)→sim(x,y,1)→like(y,1)),(表示同義關(guān)系的相關(guān)度為1,用戶對x感興趣,一定對y感興趣);InterCross(x,y)→sim(x,y,sValue(x,y,ARu(InterCross))→like(y,sValue(z,y,ARu(InterCross)))(表示InterCross關(guān)系的相關(guān)度由關(guān)系的屬性值得到,用戶對x感興趣,則以sValue(x,y,ARu(InterCross)對y感興趣)…)
3.3 用戶需求本體(ReO)
3.3.1 本體內(nèi)容用戶需求本體描述用戶需求的基本層次和關(guān)系,用來指定用戶的作業(yè)需求,如:優(yōu)先、作業(yè)類型、狀態(tài)、時間范圍、需求的資源和約束條件等。需求本體為作業(yè)調(diào)度提供參數(shù)。
3.3.2 本體構(gòu)建和表示用戶需求本體ReO={Cp,Acp,Rp,ARp,Hp,Xp},其中,Cu為用戶需求的概念集合,Acp為屬性集,對應(yīng)每個用戶需求一個屬性集,Rp為用戶需求之間的關(guān)系集,ARp為關(guān)系屬性集,對應(yīng)每個關(guān)系一個,Hp為用戶需求層次,Xp為用戶需求公理集。其余為定義的屬性和概念名稱[11]。(1)概念集合:Cp={user,job,requirement,resource,provider};其中:job為用戶的調(diào)度屬性;user為用戶;requirement可以視為用戶需求屬性;resource為用戶需求資源;provider為資源提供者情況。(2)概念的屬性集:Acp={Acp(user),Acp(job),Acp(requirement),Acp(resource),Acp(provider)};Acp(user)={Id,name};Acp(job)={Jobld,jobtype,status,constraints,priority,time-range};Acp(requirement)={constraints,starttime,runtime};Acp(resource)={resourcetype,status,capacity};(3)概念之間的關(guān)系:Rp={submit(user,job),require(job,requirement),real-locateto(resource,job),need(job,resource),provide(provider,resource)};(4)關(guān)系的屬性:ARp={ARp(submit);ARp(require),ARp(need)};ARp(submit)={submittime};(5)概念層次結(jié)構(gòu):Hp={(user,provider)};(6)公理。Xp={transitive(allocate(resource,job)∧provide(resource,provider))→serve (provider,job)};當(dāng)讀者用戶的需求和圖書館資源匹配的時候,調(diào)度提供資源給讀者用戶。
3.4 本體間關(guān)系用戶本體庫所構(gòu)建的3個本體間的調(diào)用關(guān)系由圖3表示。
3.4.1 創(chuàng)建關(guān)系(Create)用戶一方面可以創(chuàng)建自己的基本信息和興趣信息,分別到PrO和PeO,而且當(dāng)用戶產(chǎn)生需求的時候就自動生成到RO中;但是因?yàn)榛谥悄芑年P(guān)系,通過用戶的需求(RO)可以自動的建立相應(yīng)的PeO;除此以外,PeO帶有監(jiān)測功能,會自動跟蹤用戶行為,然后生成相應(yīng)的用戶興趣信息。
3.4.2 修改關(guān)系(Update)用戶一方面可以修改Pro和Peo的信息,以及改變RO信息;另一方面由于用戶需求的動態(tài)發(fā)展,則興趣模型是不斷地被修正,因此RO也可以更改PeO的相關(guān)信息。
3.4.3 調(diào)用關(guān)系(Search)主要是產(chǎn)生用戶需求時,RO調(diào)用PeO中的用戶興趣規(guī)則匹配需求,然后查找資源,而有些PeO則需要關(guān)聯(lián)相應(yīng)的PrO,調(diào)用用戶的基本信息。
圖3 面向個性的個性推薦原理4 基于用戶本體表示方法的個性化推薦采用以上表示方法用戶興趣Cu。是處于整個領(lǐng)域本體庫中的概念單元,具有本體的屬性,和其他概念存在各種關(guān)系,遵循領(lǐng)域中的公理,因此這種表示方法能夠表達(dá)更多的語義關(guān)系。
4.1 個性推薦方式及規(guī)則基于本體的表示方法包含了有關(guān)用戶興趣的很多語義信息,興趣概念之間的關(guān)系非常豐富,以不同關(guān)系的概念為檢索詞,得到的結(jié)果集能夠滿足用戶不同層面的要求,如A與B為同義關(guān)系,代表如果你對A文獻(xiàn)感興趣,那么你其實(shí)是對B也感興趣。如A與B為ISA或者PartOf關(guān)系,代表如果你對A文獻(xiàn)感興趣,那么B是你感興趣的更加深入的內(nèi)容。因此可以根據(jù)關(guān)系體現(xiàn)的信息,制訂一些規(guī)則,從不同程度描述用戶的需求,從而實(shí)現(xiàn)不同方法的推薦。我們首先定義一些在規(guī)則中使用的集合[10,12]。SET1:Cu以及與Cu是Synonymy關(guān)系的概念(以下稱Cu同義概念);SET2:與Cu是Isa(類指)和part of(部分包含)關(guān)系的下位概念(稱Cu子類)以及Cu同義概念的子類;SET3:Cu以及其子類,Cu同義概念以及其子類;SET4:與Cu是Isa和PartOf關(guān)系的上位概念(稱Cu父類)以及Cu。同義概念的父類;SET5:Cu以及其父類,Cu同義概念以及其父類;SET6:與Cu所有有關(guān)系的概念,Cu同義概念所有有關(guān)系的概念。其次,我們定義檢索規(guī)則:RULE1:采用SET1在資源中尋找相關(guān)信息;RULE2:比SET1推薦的資源更深入和具體的資源,采用SET2,SET3匹配;RULE3:比SET1推薦的資源更加抽象或者廣泛的內(nèi)容,采用SET4,SET5匹配;RULE4:和SET1推薦的資源所有相關(guān)的信息,則采用SET6匹配?!@樣,在資源中查找信息的過程就是根據(jù)檢索規(guī)則進(jìn)行檢索的過程。在提供個性化服務(wù)時,需要根據(jù)用戶的需求提供相應(yīng)信息。這里需要分析用戶的個人信息,如果用戶只是查找所輸入信息的一般的知識,采用RULE1進(jìn)行檢索;如果用戶是這方面的專家,研究比較深入,采用RULE2進(jìn)行檢索。采用這種方法不僅僅局限于單獨(dú)的關(guān)鍵詞,而是考慮了用戶興趣概念的屬性,以及其在整個本體庫中的各種關(guān)系,能夠給用戶提供更加貼切的資源。
4.2 興趣與文檔相似度計(jì)算給用戶提供資源需要計(jì)算用戶興趣和資源文檔的相似度,在本體用戶模型表示中,由于概念是由其屬性集表達(dá)的,所以概念的匹配是匹配屬性集的過程,而不單單是概念本身的名字的匹配[10]。在實(shí)際應(yīng)用中借助領(lǐng)域本體的語義關(guān)系對用戶的興趣表示進(jìn)行關(guān)鍵詞擴(kuò)展。利用前面介紹的六種擴(kuò)展方式(SET1~SET6)進(jìn)行擴(kuò)展,形成一個新的用戶特征向量,通過計(jì)算用戶特征向量和文本特征向量的相似度實(shí)現(xiàn)最相似文檔的查找。除此以外還有很多別的方法[13],也相對成熟。
5 結(jié)束語當(dāng)數(shù)字圖書館朝著智能化發(fā)展,給讀者用戶提供更個性化的推薦服務(wù)。本文提出了與傳統(tǒng)推薦技術(shù)不同的,通過本體構(gòu)建智能圖書館個性推薦功能,及其優(yōu)勢和基本原理,并且分析了在這一應(yīng)用中的需要解決的關(guān)鍵問題——用戶本體的構(gòu)建。這樣可以使數(shù)字圖書館更加靈活和準(zhǔn)確地為讀者提供服務(wù)。另外,在如下方面還有待進(jìn)一步深入和完善:如何在用戶本中精確地體現(xiàn)用戶興趣衰減問題,以及個性推薦規(guī)則如何進(jìn)一步完善。
參考文獻(xiàn)
[1]沈磊.本體的構(gòu)建及其在數(shù)字圖書館中的應(yīng)用——以基于本體的論文檢索原型系統(tǒng)為例[D].上海:復(fù)旦大學(xué),2007.
[2]劉佳.Ontology在基于知識的數(shù)字圖書館中的應(yīng)用[J].情報(bào)資料工作,2006,(3):55-59.
[3]Ioannidis Y,Kourtrika G.Digital library information-technology infrastructure[J].International Journal on Digital Libraries,2005,5(4):266.
[4]Arturas Kaklauskas,Edmundas Zavadskas,Edmundas Babenskas,Marko Seniut,Andrejus Vlasenko,and Vytautas Plakys.Intelligent Library and Tutoring System for Brita in the PuBs Project[C]∥Cooperative Design,Visualization,and Engineering.Heidelberg:Springer Berlin,2007:157-166.
[5]紀(jì)明奎.基于語義網(wǎng)的個性化信息檢索模型研究[D].黑龍江:黑龍江大學(xué),2007.
[6]何麗.基于本體的Web使用知識發(fā)現(xiàn)模型及應(yīng)用[J].計(jì)算機(jī)工程,2006,(14):169-201.
[7]董慧.本體與數(shù)字圖書館[M].武漢:武漢大學(xué)出版社,2008:121-190.
[8]Thomas Gruber.Towards principles for the design of ontologies used for knowledge sharing.International Journal of Human-Computer Studies,1995,43(5-6):907-928.
[9]Myo—Myo Naing,Ee-Peng Lim,Dion Goh Hoe—Lian.Ontology-based Web Annotation Framework for HyperLink Structures[C]∥Proceedings of Third international Conference on Web Information Systems Engineering.USA:IEEE Computer Society,2002.
[10]宋麗哲.基于本體的數(shù)字圖書館個性化用戶模型表示[J].中文信息學(xué)報(bào),2008,(1):100-103.
[11]周竹榮.基于語義網(wǎng)格門戶的用戶語義模型研究[J].計(jì)算機(jī)科學(xué),2008,(8):161-164.
[12]王洪偉,吳家春.基于本體模型的信息檢索機(jī)制研究[J].情報(bào)學(xué)報(bào),2004,23(1):3-9.
[13]Hassan Naderi,Béatrice Rumpler.Three User Profile Similarity Calculation(UPSC)Methods and Their Evaluation[C]∥Proceedings of the 2007 Third International IEEE Conference on Signal-Image Technologies and Internet-Based System.USA:IEEE Computer Society,2007:239-245.