摘要:人類個(gè)體差異等因素使得醫(yī)藥信息檢索需要用戶多興趣的個(gè)性化服務(wù)。基于這個(gè)思路,結(jié)合醫(yī)藥領(lǐng)域的特點(diǎn),提出了一種面向求醫(yī)問藥應(yīng)用的用戶多興趣描述方式,并給出了相應(yīng)的多興趣更新算法。實(shí)驗(yàn)表明,該多興趣模式比單興趣模式能更好地表達(dá)用戶興趣的內(nèi)涵和變遷,具有更高的檢索精度。
關(guān)鍵詞:醫(yī)藥信息檢索;用戶描述文件;多興趣描述和更新
中圖分類號:TP39文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2008)03-0799-04
Internet的普及使得越來越多的人選擇通過網(wǎng)上的醫(yī)藥信息檢索平臺進(jìn)行足不出戶的求醫(yī)問藥,從檢索返回的相關(guān)網(wǎng)頁中獲取專家解答或同類患者的治療經(jīng)歷。醫(yī)藥信息檢索系統(tǒng)和開放式搜索引擎一個(gè)顯著的區(qū)別是:其設(shè)計(jì)需要充分考慮到醫(yī)藥領(lǐng)域的特點(diǎn)。正所謂因人而異、對癥下藥,對于不同的求醫(yī)者,由于個(gè)體的差異,即使是患同樣的病,其用藥和治療方式都不盡相同。醫(yī)藥檢索系統(tǒng)有必要結(jié)合用戶查詢請求以及用戶背景檔案,提供個(gè)性化的檢索服務(wù)。
個(gè)性化檢索考慮了用戶的區(qū)別,通過收集和更新用戶興趣,建立用戶背景檔案,從而對用戶的再次檢索進(jìn)行結(jié)果過濾以及主題推薦[1,2]。但是,僅僅單興趣模式的個(gè)性化檢索還不夠,面向醫(yī)藥領(lǐng)域的信息檢索系統(tǒng)由于患者個(gè)體差異等領(lǐng)域特點(diǎn),需要用戶多興趣處理技術(shù)。一個(gè)用戶可能同時(shí)染上多種疾病,或者同時(shí)關(guān)注多種疾病。如果將不同疾病的信息放在一個(gè)興趣中,不僅使得興趣描述冗長,而且興趣內(nèi)容不清晰,檢索精度偏低。
在實(shí)現(xiàn)過程中,用戶多興趣主題的描述方式以及多興趣主題的更新是兩個(gè)關(guān)鍵技術(shù)。傳統(tǒng)的加權(quán)詞條的興趣表示方式[3,4]不能滿足用戶的多興趣信息描述,領(lǐng)域無關(guān)的概念空間描述[2]無法有效地結(jié)合領(lǐng)域知識,提高檢索效率。
而傳統(tǒng)的基于向量[3,4]和概率模型[4,5]的興趣更新算法在醫(yī)藥信息檢索系統(tǒng)中也存在缺陷。
1實(shí)驗(yàn)系統(tǒng)框架
一個(gè)檢索系統(tǒng)主要包括索引、請求處理和搜索三個(gè)模塊。在此基礎(chǔ)上,本文的醫(yī)藥信息檢索系統(tǒng)加入了領(lǐng)域本體和興趣管理兩個(gè)模塊。圖1為系統(tǒng)的概要框架,給出了這五個(gè)模塊的分工及模塊間的關(guān)聯(lián)。其中醫(yī)藥領(lǐng)域本體的用途體現(xiàn)在:可以利用領(lǐng)域本體在建索引時(shí)進(jìn)行文本分類;在請求處理時(shí)分析問題的概念類型,以及在多興趣更新算法中提供領(lǐng)域知識。
多興趣管理模塊提供用戶的個(gè)性化服務(wù),通過用戶對檢索結(jié)果的評價(jià)來收集用戶感興趣的主題和內(nèi)容,從而為用戶的再次檢索提供過濾和推薦。本文提出的面向醫(yī)藥檢索的多興趣描述方式以及相應(yīng)的多興趣更新算法在該模塊中得到了實(shí)現(xiàn)。
2醫(yī)藥領(lǐng)域本體的構(gòu)建
提高檢索系統(tǒng)的效率和精度需要領(lǐng)域知識的輔助。因此,領(lǐng)域本體的構(gòu)建是本文系統(tǒng)實(shí)現(xiàn)的前提。在實(shí)驗(yàn)系統(tǒng)中,筆者構(gòu)建了一個(gè)簡單的醫(yī)學(xué)本體,使得可以提高系統(tǒng)的語義分析和處理能力,改進(jìn)檢索性能。
本體是對特定領(lǐng)域中概念及概念之間關(guān)聯(lián)的明確形式化表示, 其作用是實(shí)現(xiàn)領(lǐng)域概念的可理解性和可重用性[6,7]。在第1章中指出了醫(yī)學(xué)領(lǐng)域本體在實(shí)驗(yàn)系統(tǒng)中三個(gè)方面的運(yùn)用,它包括概念樹、領(lǐng)域詞典、實(shí)例、實(shí)例間的關(guān)聯(lián)。
概念樹是對領(lǐng)域概念之間上下位關(guān)系的形式化描述。本文中的概念樹滿足多繼承關(guān)系,其建立方式是為了適應(yīng)醫(yī)藥領(lǐng)域中概念的多種分類方法的需要。醫(yī)藥學(xué)是一個(gè)蘊(yùn)涵豐富知識的領(lǐng)域,疾病和藥材是其中非常重要的兩個(gè)部分,因此本文的概念樹以這兩個(gè)概念為根節(jié)點(diǎn)展開。以概念樹為依據(jù),可以進(jìn)行概念的泛化和特化、概念的相似度比較等操作。領(lǐng)域詞典用于分詞及詞性標(biāo)注,主要包括疾病詞典、藥材詞典、屬性詞典和同義詞詞典。
實(shí)例是概念樹上概念節(jié)點(diǎn)的實(shí)體化對象。一個(gè)實(shí)例有若干個(gè)屬性,每個(gè)屬性均是由一個(gè)或多個(gè)滿足約束條件的確定的值填充。在本體中,采用〈 SubjectPredicateObject 〉三元組的集合來描述一個(gè)實(shí)例。實(shí)驗(yàn)系統(tǒng)中的3 000多個(gè)各類疾病和藥材實(shí)例是通過對相關(guān)網(wǎng)頁進(jìn)行信息抽取而生成的。在生成實(shí)例之后,通過關(guān)聯(lián)規(guī)則挖掘技術(shù)[8]來計(jì)算實(shí)例屬性之間及實(shí)例之間的關(guān)聯(lián)度。
3面向醫(yī)藥檢索的用戶多興趣管理
個(gè)性化檢索結(jié)合用戶背景,通過收集和更新用戶的興趣信息,實(shí)現(xiàn)檢索結(jié)果的過濾及相關(guān)信息的推薦。個(gè)性化檢索系統(tǒng)設(shè)計(jì)的關(guān)鍵部分是用戶興趣描述方式和興趣更新算法。本文提出了一種面向醫(yī)藥領(lǐng)域信息檢索的用戶多興趣描述方式,以及相應(yīng)的多興趣更新算法。實(shí)驗(yàn)系統(tǒng)對多興趣模式和單興趣模式的檢索性能進(jìn)行了實(shí)驗(yàn)和比較。
3.1興趣描述方式
3.1.1傳統(tǒng)的興趣描述方式
用戶興趣描述也被稱為用戶描述文件。到目前為止,用戶描述文件還沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)。對于應(yīng)當(dāng)收集哪些用戶興趣信息,如何組織存儲、收集以及更新都沒有達(dá)成共識。用戶描述文件可以用文件來組織,也可以用關(guān)系數(shù)據(jù)庫來組織。在現(xiàn)有的個(gè)性化檢索平臺中,用戶描述文件可表示為加權(quán)詞條模型、類型層次結(jié)構(gòu)模型、加權(quán)語義網(wǎng)模型、書簽和目錄結(jié)構(gòu)等[2,3,5]。
加權(quán)詞條模型基于VSM,它將用戶的興趣表示為關(guān)鍵詞向量,通過調(diào)整關(guān)鍵詞權(quán)重來近似地反映用戶的興趣信息[3]。這種模型的優(yōu)點(diǎn)是易于實(shí)現(xiàn),缺點(diǎn)在于加權(quán)詞條是一種低級的平面表示形式,無法滿足興趣在概念層次上的升降和推理;傳統(tǒng)的加權(quán)詞條模型不支持用戶的多興趣管理。
Preteschner[2]將用戶的興趣描述成一個(gè)概念子空間,通過對用戶感興趣的文檔進(jìn)行分類,將用戶的興趣類型對應(yīng)到目錄式本體的概念節(jié)點(diǎn)。概念層次結(jié)構(gòu)能夠描述用戶多興趣信息,但是其系統(tǒng)中的本體涵蓋了幾乎所有的領(lǐng)域和主題,對用戶興趣內(nèi)容的表示粒度較粗,不能利用特定領(lǐng)域的相關(guān)知識和特點(diǎn),無法滿足面向特定領(lǐng)域檢索所需的精度。
3.1.2面向醫(yī)藥檢索的多興趣描述方式
細(xì)化領(lǐng)域知識、引入領(lǐng)域特性是提高面向特定領(lǐng)域的信息檢索系統(tǒng)性能的關(guān)鍵。針對醫(yī)藥領(lǐng)域特點(diǎn),本文設(shè)計(jì)了如圖2所示的多興趣描述結(jié)構(gòu)。描述信息有靜態(tài)和動態(tài)兩種。靜態(tài)信息包含用戶的固定特征以及更新緩慢的特征;動態(tài)信息即為用戶的興趣列表,列表中存儲著多個(gè)興趣信息,是多興趣更新算法的操作對象。
特征信息存儲了用戶的靜態(tài)信息,如年齡、性別、家族病史等,這些信息是在創(chuàng)建用戶時(shí)手工填寫的。筆者希望在出現(xiàn)相同興趣點(diǎn)時(shí)仍然能夠通過靜態(tài)信息為用戶過濾檢索結(jié)果。因?yàn)樵卺t(yī)學(xué)領(lǐng)域,個(gè)體的一些固有差異決定了其治療手段和用藥處方迥然不同。同樣一種疾病,年輕人和老年人很可能采用不同的醫(yī)療手段。例如胃潰瘍出血穿孔,年輕人一般只需做修補(bǔ)術(shù),而老年人則多選擇大部分切除。
現(xiàn)實(shí)世界中,每個(gè)人都是同時(shí)擁有多個(gè)興趣。每個(gè)興趣都具有一個(gè)概念上與其他興趣區(qū)分開來的主題信息。主題并非簡單的文字集合,而是一個(gè)復(fù)雜的難以形式化的語義單元。此外,受個(gè)體內(nèi)在和外在的刺激和觸發(fā),每個(gè)興趣都會經(jīng)歷“產(chǎn)生——變濃——淡化——消失”的過程。為了模擬現(xiàn)實(shí)中的興趣,筆者設(shè)計(jì)了一個(gè)興趣列表,其中存儲了若干個(gè)興趣點(diǎn),每個(gè)興趣點(diǎn)均包含了興趣內(nèi)容和興趣管理數(shù)據(jù)兩部分。
1)興趣內(nèi)容——概念類型和加權(quán)詞條
興趣的主題應(yīng)該由個(gè)體之間達(dá)成共識的知識來表示,它應(yīng)具有共享、可理解、可重用的性質(zhì)。本文采用概念類型來描述主題信息。概念類型對應(yīng)于領(lǐng)域本體中的概念實(shí)例,正好具備了上述性質(zhì)。為了更加細(xì)化興趣內(nèi)容,還可以將概念類型對應(yīng)于一個(gè)實(shí)例的屬性。例如,用戶反復(fù)地詢問關(guān)于胃病的病癥、病因、檢查指標(biāo)、治療方法等,可以將用戶的這個(gè)興趣點(diǎn)的概念類型對應(yīng)于疾病概念實(shí)例“胃病”。如果用戶只是對“胃病該如何治療”感興趣,就可以將其概念類型對應(yīng)到“胃病”實(shí)例的“胃病治療方法”這個(gè)屬性上。基于概念類型的共享表示的另一個(gè)優(yōu)點(diǎn)是可實(shí)現(xiàn)基于協(xié)作過濾[1]的個(gè)性化搜索。
概念類型是用來在個(gè)體之間達(dá)成共識的,而個(gè)體對興趣內(nèi)容的描述是有其自身的語言方式,使用加權(quán)詞條來建立興趣信息和特定用戶的提問方式、描述語言之間的關(guān)聯(lián)。加權(quán)詞條來源于領(lǐng)域詞典,是從本體實(shí)例的領(lǐng)域詞群中選出的帶權(quán)的關(guān)鍵詞向量,并根據(jù)用戶的查詢關(guān)鍵詞不斷進(jìn)行調(diào)整而成。加權(quán)詞條主要用于修正和擴(kuò)展請求處理中提取的關(guān)鍵詞。如果一個(gè)興趣點(diǎn)與用戶的提問吻合,則需要根據(jù)用戶問題中的關(guān)鍵詞來修改此加權(quán)詞條。
2)興趣管理數(shù)據(jù)——興趣存活時(shí)間和關(guān)注度
為了模擬現(xiàn)實(shí)中興趣的“產(chǎn)生——變濃——淡化——消失”這幾個(gè)狀態(tài),本文引入了興趣存活時(shí)間和興趣關(guān)注度這兩個(gè)元素。從產(chǎn)生一個(gè)新的興趣開始,予以分配一個(gè)存活時(shí)間。興趣存活時(shí)間會隨著現(xiàn)實(shí)時(shí)間的流逝逐漸減少,當(dāng)時(shí)間為零時(shí),這個(gè)興趣即為消失,將從興趣列表中刪除。不同類型的興趣淡化的速度是不一樣的。例如對于急性病,用戶只會對它保持短期的興趣;而對于慢性病,則會保持較長時(shí)間的興趣。所以基于領(lǐng)域特點(diǎn),將興趣的衰減速度分為快、中、慢三種,分別對應(yīng)于興趣概念類型中的急性病、藥材、慢性病。衰減速度是影響興趣存活時(shí)間的主要因素,此外興趣點(diǎn)的檢索以及更新可以延長該興趣點(diǎn)的存活時(shí)間。
興趣關(guān)注度量化了用戶對一個(gè)興趣點(diǎn)的關(guān)注程度。用戶對于該興趣點(diǎn)的最新關(guān)注時(shí)間以及關(guān)注次數(shù)決定了興趣的關(guān)注度。在進(jìn)行個(gè)性化檢索時(shí),根據(jù)關(guān)注度順序來遍歷興趣列表,能夠提高個(gè)性化檢索處理的速度。
用戶興趣的表示形式與檢索對象的組織方式是相關(guān)的,采用基于XML的RDF標(biāo)記語言來描述用戶多興趣。在提出多興趣描述方式之后,需要設(shè)計(jì)相應(yīng)的多興趣更新算法以輔助對用戶描述文件的管理和操作。
3.2興趣更新算法
在定制好一個(gè)用戶描述文件后,可以由用戶修改,也可以由系統(tǒng)自適應(yīng)地修改,這樣隨著用戶興趣的變化,描述文件也發(fā)生改變。系統(tǒng)要自適應(yīng)修改,需要分析當(dāng)前用戶的行為,從而調(diào)整用戶興趣的主題和內(nèi)容。系統(tǒng)中采用顯式提交的方式跟蹤用戶行為,限定檢索結(jié)果評價(jià)為五個(gè)等級:很好、不錯(cuò)、一般、差、很差,用戶根據(jù)對檢索結(jié)果內(nèi)容的滿意程度給出評價(jià)。評價(jià)等級代表了用戶的興趣信息,決定該文檔和檢索請求的相關(guān)度。如果用戶對該網(wǎng)頁的評價(jià)持肯定態(tài)度,說明用戶對這方面信息感興趣;如果持否定態(tài)度,說明用戶不感興趣或在淡化這方面的興趣。
3.2.1傳統(tǒng)的興趣更新算法
兩種傳統(tǒng)的興趣收集更新算法分別是基于向量空間模型[3,4]和概率模型[4,5]。
基于向量空間模型的興趣更新算法主要是針對加權(quán)詞條的興趣描述方式,模型中文檔和用戶興趣的組織方式都是關(guān)鍵詞權(quán)重向量表示。基于向量空間模型的更新算法可以表示為
V′←αV+β×(ηi× Drel)-γ×(ηi× Dnonrel)
其中:V和V′分別為更新前后用戶興趣u的詞條向量;Drel和Dnonrel分別代表用戶感興趣和不感興趣文檔的關(guān)鍵詞向量;η為用戶評價(jià)等級;權(quán)重因子為α、β、γ。
在概率模型中,用戶興趣表示為領(lǐng)域分類模型上的概率分布。依據(jù)用戶感興趣文檔的領(lǐng)域類型,來修正興趣的領(lǐng)域概率分布,實(shí)現(xiàn)興趣的適應(yīng)和漂移。針對每個(gè)領(lǐng)域分類cj,首先計(jì)算文檔d在分類cj上的條件概率;然后利用下式來修改用戶興趣向量中對應(yīng)領(lǐng)域分類的條件概率:
p(cj|u)←[α×p(cj|u)+β×η×p(cj|d)]/(α+β)
3.2.2面向醫(yī)藥檢索的多興趣更新算法
基于圖2所示的多興趣描述結(jié)構(gòu),上述兩種算法并不能很好地運(yùn)用在多興趣更新操作中。于是筆者設(shè)計(jì)了一種面向醫(yī)藥檢索的多興趣更新算法,通過對用戶多興趣描述結(jié)構(gòu)的修改,來反映用戶多興趣的形成和變遷。
在3.1.2節(jié)的介紹中,多興趣描述方式包括靜態(tài)信息和動態(tài)信息兩部分。動態(tài)信息即為興趣列表,存儲了若干個(gè)概念上獨(dú)立的興趣點(diǎn),是更新算法的操作對象。一個(gè)興趣點(diǎn)包括興趣內(nèi)容和興趣管理數(shù)據(jù)兩部分。其中:興趣內(nèi)容是由興趣的概念類型和加權(quán)詞條表現(xiàn);管理數(shù)據(jù)包括興趣存活時(shí)間和關(guān)注度。多興趣更新算法的核心任務(wù)就是通過創(chuàng)建新興趣或者修改已有興趣來調(diào)整興趣列表,實(shí)現(xiàn)用戶興趣的產(chǎn)生和變化。下面是多興趣更新算法的詳細(xì)描述。
算法1面向醫(yī)藥檢索的多興趣更新算法
輸入:用戶興趣模型,查詢關(guān)鍵詞,用戶已評價(jià)的網(wǎng)頁。
輸出:更新后的用戶興趣模型。
a)文本分析,將已評價(jià)網(wǎng)頁的內(nèi)容映射到領(lǐng)域本體中的概念實(shí)例c。
b)遍歷興趣列表,搜索概念類型為c的興趣點(diǎn)。如果找到該興趣點(diǎn)Si,則跳至d)。
c)創(chuàng)建新興趣點(diǎn),填寫興趣屬性:興趣的概念類型賦為c;結(jié)合實(shí)例c的領(lǐng)域詞群和查詢關(guān)鍵詞,生成加權(quán)詞條;根據(jù)領(lǐng)域知識為興趣存活時(shí)間和衰減速度賦值;興趣關(guān)注度設(shè)為默認(rèn)值。跳至e)。
d)修改興趣點(diǎn)Si:結(jié)合原加權(quán)詞條和查詢關(guān)鍵詞,生成新的加權(quán)詞條;延長興趣存活時(shí)間;增加興趣關(guān)注度。
e)遍歷興趣列表,對每個(gè)興趣點(diǎn),根據(jù)其衰減速度調(diào)整興趣的存活時(shí)間。
f)返回更新后的用戶興趣模型。
算法中用到了基于領(lǐng)域知識的文本分類技術(shù),目的在于將文檔映射到領(lǐng)域本體中的概念實(shí)例。在實(shí)驗(yàn)系統(tǒng)中筆者預(yù)先計(jì)算好了索引庫中每一篇文檔的概念映射,所以這一步驟并沒有影響算法的性能,從而滿足了實(shí)時(shí)處理的檢索需要。
3.3實(shí)驗(yàn)分析
實(shí)驗(yàn)系統(tǒng)中的興趣管理模塊實(shí)現(xiàn)了本文提出的用戶多興趣描述方式,以及多興趣更新算法。用戶興趣信息可用于查詢請求的修正擴(kuò)展和檢索結(jié)果的過濾重排。
用戶以自然語言形式提交檢索問題,請求處理模塊提取關(guān)鍵詞序列和問題概念類型;關(guān)鍵詞序列和用戶興趣列表進(jìn)行相似度比對之后進(jìn)行擴(kuò)展及權(quán)重修改;請求處理模塊的結(jié)果將送到檢索模塊。
檢索模塊首先根據(jù)提取的關(guān)鍵詞序列及概念類型從索引庫中檢索出檢索結(jié)果;然后結(jié)合用戶興趣文件對初次檢索結(jié)果集進(jìn)行相關(guān)度計(jì)算,過濾掉一些相關(guān)度較低的檢索結(jié)果,并對剩余結(jié)果進(jìn)行重排。
本文運(yùn)用了用戶多興趣模式和單興趣模式兩種個(gè)性化檢索來進(jìn)行實(shí)驗(yàn)對比。下面是一個(gè)簡單直觀的對比例子。假設(shè)用戶一直對胃病信息感興趣,而最近得了感冒,產(chǎn)生了新的興趣點(diǎn)。在此期間該用戶提交了一系列問題請求,并反饋了對檢索結(jié)果的評價(jià),系統(tǒng)據(jù)此更新用戶的興趣描述。下面是用戶的一串順序的問題請求:a)胃病是怎么一回事?b)感冒咳嗽是什么原因?c)頭痛、咳嗽該吃什么藥?d)胃病怎么辦?e)感冒頭痛怎么治?
在圖3中給出了這兩種模式各自的檢索精度。圖中橫軸表示每個(gè)問題編號,縱軸表示針對每個(gè)問題的前100個(gè)檢索結(jié)果的準(zhǔn)確率。從圖中可以看出多興趣模式中興趣變化過程:當(dāng)用戶提交第一個(gè)問題時(shí),用戶還只有胃病這一個(gè)興趣點(diǎn),因此是否使用多興趣模式在檢索精度上并沒有差別。而當(dāng)用戶對感冒感興趣之后,多興趣模式會立即產(chǎn)生一個(gè)新的興趣點(diǎn),而單興趣模式?jīng)]有分析新興趣的概念類型,只是將兩種興趣的信息表示在一個(gè)加權(quán)詞條中,導(dǎo)致興趣適應(yīng)后檢索精度偏低。可以看到在此后的查詢中,單興趣模式的檢索精度將會受到很大影響,其主要原因就是興趣的內(nèi)容表示不夠清晰,而這正是多興趣模式的優(yōu)勢,即通過自適應(yīng),用戶產(chǎn)生了兩個(gè)主題獨(dú)立的興趣點(diǎn),使得在個(gè)性化檢索時(shí)不會混淆興趣內(nèi)涵。當(dāng)兩個(gè)興趣特征穩(wěn)定下來后,多興趣模式的個(gè)性化服務(wù)能夠?yàn)橛脩舴祷馗泳_的檢索結(jié)果。圖4是單興趣和多興趣兩種模式分別在返回的前10~100個(gè)結(jié)果中的平均準(zhǔn)確率統(tǒng)計(jì)(多主題模式曲線為多興趣檢索精度),可以看到多興趣模式顯著地提高了檢索性能。
4結(jié)束語
結(jié)合用戶興趣背景的個(gè)性化檢索是下一代搜索引擎的一個(gè)發(fā)展方向。一個(gè)面向多興趣的個(gè)性化服務(wù)能夠更精確地把
握用戶的實(shí)際興趣和需求,提高檢索準(zhǔn)確率。面向醫(yī)藥領(lǐng)域的信息檢索系統(tǒng)由于患者個(gè)體差異等特點(diǎn),需要用戶多興趣處理技術(shù)。在實(shí)現(xiàn)過程中,用戶多興趣主題的描述方式以及多興趣主題的更新是兩個(gè)關(guān)鍵技術(shù)。
傳統(tǒng)的加權(quán)詞條的興趣表示方式不能滿足用戶的多興趣信息描述,而領(lǐng)域無關(guān)的概念空間描述無法有效地結(jié)合特定領(lǐng)域知識,達(dá)到提高檢索效率的目的。
本文提出了一個(gè)面向醫(yī)藥領(lǐng)域的支持用戶多興趣的信息檢索系統(tǒng),系統(tǒng)利用了領(lǐng)域特點(diǎn)以及領(lǐng)域本體來描述用戶多興趣信息,并設(shè)計(jì)了一種有效可行的多興趣更新策略。實(shí)驗(yàn)表明,本文提出的多興趣檢索模式比起單興趣模式在檢索精度上有很大的提高。
參考文獻(xiàn):
[1]曾春,邢春曉,周立柱.個(gè)性化服務(wù)技術(shù)綜述[J].軟件學(xué)報(bào),2002,13(10):19521961.
[2]PRETSCHNER A,GAVCH S.Ontology based personalized search[C]//Proc of the 11th IEEE International Conference on Tools with Artificial Intelligence.Washington DC:IEEE Computer Society,1999:391-398.[3]劉紹翰,武港山,張福炎.基于詞條權(quán)值的相關(guān)反饋算法在Web信息檢索中的應(yīng)用[J].情報(bào)學(xué)報(bào),2002,21(6):688-673.
[4]SALTON G,BUCKLEY C.Improving retrieval performance by relevance feedback[J].Journal of the American Society for Information Science,1990,41(4):288-297.
[5]曾春,邢春曉,周立柱.基于內(nèi)容過濾的個(gè)性化搜索算法[J].軟件學(xué)報(bào),2003,14(5):9991004.
[6]NOY N F,McGUINNESS D L.Ontology development 101:a guide to creating your first ontology[R].[S.l.]:Stanford Knowledge Systems Laboratory.2001.
[7]周肖彬,曹存根.基于本體的醫(yī)學(xué)知識獲取[J].計(jì)算機(jī)科學(xué), 2003,30(10):35-39,54.
[8]HAN Jiawei,KAMBER M.Data mining:concepts and techniques[M].San Francisco,CA:Morgan Kaufmann Publishers, 2001.
“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文”