〔摘 要〕本文引入本體對信息資源和用戶興趣特征進行描述,提出了在語義層次上實現(xiàn)數(shù)字圖書館個性化信息服務(wù)的系統(tǒng)框架模型,簡單分析了各個部分功能,重點闡述了用戶的興趣建模和更新方法。
〔關(guān)鍵詞〕數(shù)字圖書館;本體;個性化服務(wù)
〔中圖分類號〕G250.76 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)05-0077-03
Study on Digital Library Personalized Information Service Based on OntologyBao Cuimei
(Library,Shandong University of Technology,Zibo 255049,China)
〔Abstract〕This paper described information service and users interest based on ontology.It proposed a framework model of digital library personalized information service system and simplely analysed the function of every part and focused on establishing and updating method of user interest model.
〔Keywords〕digital library;ontology;personalized service
數(shù)字圖書館的個性化主動信息服務(wù)就是以用戶為中心,在研究用戶行為、興趣、愛好、專業(yè)和習(xí)慣的基礎(chǔ)上,根據(jù)用戶的個性化需求而開展的信息服務(wù)。它具有很強的針對性、主動性、易用性、知識性、專業(yè)性,能夠充分提高用戶對數(shù)字圖書館信息服務(wù)的滿意度。近年來,有關(guān)學(xué)者紛紛對數(shù)字圖書館的個性化服務(wù)的模式、意義、服務(wù)方式及系統(tǒng)構(gòu)建等展開一系列討論,如文獻[3][5]等,各機構(gòu)和高校圖書館也努力創(chuàng)造條件,借鑒國外成功經(jīng)驗,積極的將理論研究成果付諸于實踐,陸續(xù)開展個性化服務(wù)。目前,在信息檢索、信息過濾、信息分類等個性化服務(wù)研究方面,主要還集中在根據(jù)關(guān)鍵詞來描述用戶和資源的特征,并通過關(guān)鍵詞匹配方式實現(xiàn)用戶和資源信息的對應(yīng)關(guān)系,很少考慮到語義層面上,因此,會丟失很多語義方面的信息。而本體作為一種新的知識表示方式,將知識表示擴展到語義的層次上,克服了關(guān)鍵詞表示的缺陷,能實現(xiàn)語義上的信息表示,在個性化服務(wù)方面有著很好的應(yīng)用前景。本文提出了在數(shù)字圖書館領(lǐng)域內(nèi),對本地資源、異地共享資源、外部網(wǎng)絡(luò)資源等信息資源進行整合,建立資源領(lǐng)域本體庫和用戶興趣模型庫,并以此為基礎(chǔ)計算用戶興趣特征和資源特征在概念層次上的相似性,從而在語義層次上實現(xiàn)數(shù)字圖書館的個性化信息服務(wù)的系統(tǒng)框架,并重點闡述了用戶的興趣建模。
1 本體論簡介
本體是概念體系的規(guī)范;是共享的概念模型的形式化的規(guī)范說明;是用于描述或表述某一領(lǐng)域知識的一組概念及其相互間的關(guān)系,可用以組織知識庫高層次的知識抽象,也可用來描述特定領(lǐng)域的知識。本體體現(xiàn)的是共同認可的知識,反映的是相關(guān)領(lǐng)域中公認的概念集,它所針對的是團體而不是個體。本體的目標是捕獲相關(guān)領(lǐng)域的知識,提供對該領(lǐng)域知識的共同理解,確定該領(lǐng)域內(nèi)共同認可的概念,并從不同層次的形式化模式上給出這些概念(術(shù)語)和概念之間相互關(guān)系的明確定義。
領(lǐng)域本體定義為五元組[1]。其中
Domain-Ontology∷={OntoConcepts,Relations,Ruels,Axioms,Individuals};
OntoConcepts∷={Concept};
Relations∷={R(C1,C2),C1,C2∈OntoConcepts};
Ruels∷={Ruel};
Axioms∷={Axiom};
Individuals∷={Individual|σ(Individual)∈OntoConcepts}。
OntoConcepts為領(lǐng)域內(nèi)以術(shù)語形式出現(xiàn)的概念集合;Relations為領(lǐng)域內(nèi)概念之間的二元關(guān)系集合,通常領(lǐng)域中本體之間存在的關(guān)系有:泛化關(guān)系(Generalize)、整體-部分關(guān)系(Part-of)、實例關(guān)系(Instance-of)、關(guān)聯(lián)關(guān)系(Association)、屬性關(guān)系(Attributes);Ruels為規(guī)則的集合,任何關(guān)于概念或關(guān)系的可能取值或它們之間可能關(guān)系的組合關(guān)系的約束被稱為規(guī)則;Axioms為公理的集合,用于定義規(guī)則或關(guān)系之間的關(guān)系和規(guī)則;Individuals為領(lǐng)域本體內(nèi)概念實例的集合,其中,σ:Individuals→OntoConcepts是概念實例到所屬概念的映射。
本體的構(gòu)建方法主要有2種:
(1)完全手工的方法,即在領(lǐng)域?qū)<业膸椭掠帽倔w描述語言將本體描述出來,實際上所謂的手工創(chuàng)建本體,并不是完全靠手工創(chuàng)建,而是通過本體編輯工具來輔助實現(xiàn)。
(2)采用自動化的或半自動化的方法,即從詞典或結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)或文本中抽取或?qū)W習(xí)或發(fā)現(xiàn)領(lǐng)域本體。根據(jù)本體學(xué)習(xí)的知識源的不同,對于采用自動化或半自動化的方法構(gòu)建領(lǐng)域本體的方法進行分類:從詞典進行本體學(xué)習(xí),將構(gòu)建本體建立在已有的機器可讀的詞典的基礎(chǔ)上,從中抽取相關(guān)的概念和概念間的關(guān)系;從知識庫中進行學(xué)習(xí),通過從已有知識庫中學(xué)習(xí)來構(gòu)建本體;從關(guān)系數(shù)據(jù)庫中抽取本體;從半結(jié)構(gòu)化的數(shù)據(jù)學(xué)習(xí);從文本中學(xué)習(xí)。如文獻[1]論述了從分布的領(lǐng)域知識中自動提取領(lǐng)域本體的方法,文獻[4]論述了從專業(yè)術(shù)語詞典中自動提取領(lǐng)域本體的方法等等。自動提取領(lǐng)域本體的基本流程可概括為:①從知識源中提取有代表性的概念,形成領(lǐng)域本體中的概念;②通過分析概念的屬性和聚類中元素與其它元素的關(guān)系提取本體中的概念關(guān)系;③解決概念間關(guān)系的沖突。
2 基于本體的數(shù)字圖書館個性化信息服務(wù)系統(tǒng)框架
為了能夠向用戶提供個性化的的信息服務(wù),基于本體的數(shù)字圖書館個性化信息服務(wù)系統(tǒng)必需為每個用戶建立一個用戶描述文件來描述用戶的興趣特征,用戶興趣的收集可以在用戶注冊自己的興趣和愛好的基礎(chǔ)上再通過分析用戶的檢索請求及跟蹤用戶行為和對用戶的日志挖掘來獲得用戶興趣特征,從而對用戶興趣建模,并且系統(tǒng)對用戶的興趣模型能夠不斷更新。個性化信息服務(wù)的關(guān)鍵是能夠為用戶提供有針對性的資源,因此,對資源、用戶興趣的描述以及用戶興趣與資源的檢索匹配機制是系統(tǒng)的核心。為了克服用關(guān)鍵詞來描述用戶和資源的特征,并通過關(guān)鍵詞匹配方式實現(xiàn)用戶興趣和資源信息的對應(yīng)關(guān)系的缺陷。本文引入本體這種新的知識表示方式,將對用戶興趣特征和資源特征的描述擴展到語義的層次上,并將用戶興趣與資源在語義層次上進行匹配,系統(tǒng)實現(xiàn)的原理如圖1所示。
如上圖所示,基于本體的數(shù)字圖書館個性化信息服務(wù)系統(tǒng)主要包括以下幾大模塊:用戶檢索界面、用戶興趣管理模塊、領(lǐng)域本體管理模塊、資源描述管理模塊、檢索匹配器等。
用戶檢索界面接收用戶的檢索請求并將個性化信息服務(wù)系統(tǒng)的檢索結(jié)果返回給用戶。
用戶興趣管理模塊負責(zé)分析用戶的個性化需求,更新和維護用戶興趣庫及對個性化的查詢信息進行過濾,包括:個性化需求分析器、個性化查詢過濾器和用戶興趣庫3個模塊。個性化需求分析器:首先對查詢請求進行基本詞法分析,得到其關(guān)鍵詞級的內(nèi)容,然后基于領(lǐng)域本體對查詢請求進行概念擴充并結(jié)合用戶興趣模型預(yù)測用戶可能感興趣的內(nèi)容,形成最終的查詢請求交檢索匹配器;用戶的興趣建模在第三小節(jié)詳細闡述;個性化查詢過濾器對檢索匹配器返回的檢索結(jié)果基于用戶興趣模型進行過濾。
檢索匹配器根據(jù)用戶的查詢請求從各個信息資源,包括本地館藏及數(shù)據(jù)庫資源、異地共享數(shù)據(jù)庫資源和其他網(wǎng)絡(luò)資源中,搜索與用戶需求相關(guān)的信息,或根據(jù)用戶的興趣模型主動從各個信息資源中搜索用戶可能感興趣的內(nèi)容,然后運用信息推送技術(shù)主動將信息推送給用戶。
領(lǐng)域本體管理模塊在充分復(fù)用現(xiàn)有本體的基礎(chǔ)上再采用自動化的或半自動化的甚至完全手工的方法,即從詞典或結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)或文本中抽取或?qū)W習(xí)或發(fā)現(xiàn)領(lǐng)域本體,不斷更新和完善數(shù)字圖書館的領(lǐng)域本體庫。
資源描述管理模塊將本地資源、異地共享資源、外部網(wǎng)絡(luò)資源等對于各種信息資源,使用RDF或OWL等語義描述語言根據(jù)數(shù)字圖書館的領(lǐng)域本體庫中已建立的領(lǐng)域Ontology實體進行Ontology元數(shù)據(jù)標注。在基于本體的語義標注技術(shù)中,關(guān)鍵是如何充分利用本體在領(lǐng)域知識的抽象表示,發(fā)現(xiàn)領(lǐng)域內(nèi)的概念、概念的繼承層次、潛在的關(guān)系和公理等,通過對信息頁面(Web頁面或文檔)進行標注,就可獲得相關(guān)領(lǐng)域中的實例。將現(xiàn)實應(yīng)用中涉及的實例和本體概念相聯(lián)系,就是基于本體的語義標注所要做的工作。通過語義標注,本體將頁面上的信息關(guān)聯(lián)到相關(guān)的知識結(jié)構(gòu)和推理規(guī)則,增強了信息的語義表達能力,因此,機器就可以通過已有的本體得到頁面上信息的含義,實現(xiàn)了對信息資源在語義層面表示和描述,然后將其按一定的格式存儲在描述資源庫中。
語義標注的流程:(1)通過對標注對象的基本詞法分析,得到對象的關(guān)鍵詞級的內(nèi)容;(2)提取文檔中的本體概念;(3)語義實例的標注和抽取。通過這樣的步聚,就能夠得到經(jīng)過語義標注后的文檔語義向量。
文檔的語義表示:(1)通過文檔預(yù)處理和語義標注流程得到文檔語義向量;(2)以本體的層次化概念樹為分類依據(jù),對已抽取語義特征向量的文檔進行分類;(3)為分類的文檔建立語義索引,首先為本體中的概念建立一個指向其實例的指針,其次將有實例的概念放到一個索引文件中,并按照字典序排列,并為其建立一個有序鏈表指向包含該概念的文檔語義特征向量,然后將該文檔語義特征向量與其對應(yīng)的文檔鏈接起來。
3 用戶興趣建模
3.1 用戶興趣發(fā)現(xiàn)方法
通常有2種方法可用來發(fā)現(xiàn)用戶的興趣:(1)顯式反饋;(2)隱式反饋。在顯式反饋中,用戶可輸入有關(guān)個人的興趣資料或?qū)Ξ斍暗墓ぷ鬟M行評價,為了減少用戶在查找信息時過多的顯式參與,許多研究者都在研究如何在更少(甚至不)干擾用戶的前提下獲得用戶更多的信息,即如何通過跟蹤用戶行為和操作及通過對用戶的日志挖掘來獲取用戶的興趣,如文獻[2]通過分析用戶的瀏覽行為和瀏覽內(nèi)容對用戶興趣建模,這就是隱式反饋。本文結(jié)合兩種方法來發(fā)現(xiàn)用戶的興趣:
3.1.1 顯式反饋
用戶首次登入時注冊的個人的興趣、愛好和專業(yè)研究方向等,系統(tǒng)對用戶注冊的興趣、愛好和專業(yè)研究方向的方面的信息設(shè)置一評價值value,也可再通過用戶為檢索到的信息設(shè)置一評價值value,用來表示用戶對此信息的滿意程度,形式化表示為:
其中d表示當前查找到的信息頁面(網(wǎng)頁或文檔),f1(value)系統(tǒng)為用戶注冊的興趣、愛好和專業(yè)研究方向的方面的信息設(shè)置的評價值value,f2(value)用戶為檢索到的信息設(shè)置的評價值value。
3.1.2 隱式反饋
常用的能作為用戶興趣指示器的行為和操作主要包括:(1)用戶在當前頁上停留的時間(T),(2)用戶是否保存、打印過當前信息,對網(wǎng)頁信息是否將當前信息收入收藏夾(S),(3)用戶是否在當前頁面上選擇了超鏈(L),結(jié)合以上3種情況,可得到通過隱式反饋獲知的用戶滿意程度,形式化的表示為:
其中,d表示當前查找到的信息頁面,F=(T,S,L),Ci表示F各元素的權(quán)重,綜上所述,用戶對某一信息頁面d的興趣量化值可表示為:
其中β是對顯式反饋和隱式反饋兩種方法的平衡因子。
通過對公式(3)的u(d)設(shè)定一個閾值,只有當u(d)的值大于這個閾值的網(wǎng)頁或文檔才會放到一個網(wǎng)頁或文檔集合中,構(gòu)成用戶對網(wǎng)頁或文檔的興趣集合,但僅用這個集合來求出用戶的興趣模型是不夠的,尤其對是網(wǎng)頁內(nèi)容,更新頻率很高,因此,在建立用戶興趣模型時,需要在此基礎(chǔ)上對得到的用戶對網(wǎng)頁或文檔的興趣集合進行內(nèi)容分析,找到用戶真正感興趣的內(nèi)容。
3.2 用戶興趣模型的建立
由于用戶的興趣可能不是單一的,首先對用戶的興趣文檔集(網(wǎng)頁要先文檔化)進行聚類,然后針對每一類文檔集進行內(nèi)容分析,提取此類中用戶感興趣的內(nèi)容。在此假設(shè)網(wǎng)頁和文檔都已進行了預(yù)處理,并基于本體進行了語議標注。
用戶某一類的興趣的算法
(1)聚類后某一類的文檔集D=(d1,d2,……,dn)的概念向量空間的表示如下:
(3)根據(jù)u(tj)(j=1,2,……,m)的大小,將U中的元素從大到小排序,選擇其中較大的前個,即U={(t1,u(t1)),(t2,u(t2)),……,(tj,u(tj)),……,(t,u(t))}(m),將用戶對這個概念的興趣權(quán)重歸一化,最終獲得用戶的興趣模型:針對每一類文檔集應(yīng)用上述算法,就可求出用戶的基于本體中的概念的興趣模型,找出用戶真正感興趣的內(nèi)容。
3.3 用戶興趣模型的更新
用戶的興趣不會是一成不變的,隨著用戶學(xué)習(xí)的深入以及生活工作的需要,用戶的興趣也會隨之變化,因此用戶的興趣需要更新。更新算法簡述如下:
(1)根據(jù)公式(3)及3.2節(jié)的步驟,由用戶新瀏覽的網(wǎng)頁或文檔可求出一個用戶的基于本體中的概念的興趣集U″。
(2)將U″分成兩部分U″k和U″-k,其中,興趣集U″k中的k概念是已經(jīng)在用戶的興趣模型U′中出現(xiàn)的概念,興趣集U″-k中-k個概念是新學(xué)習(xí)到的。
(3)將U″和U′合并可得用戶新的興趣模型U′new,其中U′new概念數(shù)為k+2(-k),前k概念為U″和U′中共有,其概念的興趣度權(quán)重為U″和U′中概念的興趣度權(quán)重之和,其余2(-k)分別為原興趣模型U′的-k個概念和U″中新學(xué)習(xí)到的-k個概念。
(4)根據(jù)概念的興趣度權(quán)重的大小將U′new中的元素從大到小排序,選擇其中較大的前個,將用戶對這個概念的興趣權(quán)重歸一化,最終獲得用戶新的興趣模型Unew。
4 結(jié)束語
本文以“用戶為中心”提出了基于本體的數(shù)字圖書館個性化服務(wù)系統(tǒng)的架構(gòu),簡要分析了該架構(gòu)各模塊的功能,并闡述重點用戶的興趣建模。該模型的主要特點是:(1)引人本體,在語義層面精確地描述用戶的興趣特征和資源特征;(2)在用戶不斷使用系統(tǒng)的過程中,系統(tǒng)對用戶興趣進行學(xué)習(xí),挖掘出用戶的潛在興趣,并對用戶興趣建模,表達出用戶潛在需求的隱性知識。下一步的工作將圍繞用戶興趣特征和資源特征在概念層次上的相似性計算方法等方面展開。
參考文獻
[1]高英,郭荷清,鄒智敏.分布式環(huán)境下領(lǐng)域本體的自動提取[J].計算機科學(xué),2006,33(12):164-186.
[2]張玉連,王權(quán).基于瀏覽行為和瀏覽內(nèi)容的用戶興趣建模[J].現(xiàn)代圖書情報技術(shù),2007,(6):52-55.
[3]余正濤,等.基于本體的個性化領(lǐng)域信息服務(wù)[J].計算機工程,2005,31(5):22-24.
[4]何燕,等.基于專業(yè)術(shù)語詞典的自動領(lǐng)域本體構(gòu)造[J].情報學(xué)報,2007,26(1):65-70.
[5]胡蓓蓓.基于知識決策的數(shù)字圖書館個性化推薦[J].情報學(xué)報,2007,26(3):448-454.