一、引言
最新資料表明,當(dāng)前網(wǎng)絡(luò)上公開可索引到的網(wǎng)頁已經(jīng)超過115億。而且網(wǎng)絡(luò)上眾多的搜索引擎如Google,Yahoo等交叉索引的網(wǎng)頁重復(fù)率估計(jì)達(dá)到28.8%。網(wǎng)站www.pewinternet.org的研究表明有44%的用戶只使用一種搜索引擎,48%的用戶使用2-3種搜索引擎,只有7%的用戶使用3種以上。而元搜索引擎(Meta Search Engine,MSE)是基于搜索引擎的搜索引擎,是在公開使用的搜索引擎(稱為成員搜索引擎)基礎(chǔ)上建立起來的可以同時(shí)或并行查詢多個(gè)搜索引擎并對(duì)返回結(jié)果進(jìn)行處理的搜索工具。元搜索引擎能整合各個(gè)公用的搜索引擎,充分利用這些著名搜索引擎的排名機(jī)制對(duì)其返回結(jié)果進(jìn)行處理,從而提高用戶的搜索效率。
按運(yùn)行平臺(tái)分,元搜索引擎有桌面型和網(wǎng)絡(luò)型兩種。桌面型元搜索引擎是一種客戶端元搜索工具,可以在充分保護(hù)隱私的情況下挖掘用戶個(gè)性化的搜索需求,本文認(rèn)為這是優(yōu)先發(fā)展桌面元搜索引擎的最好理由。用戶興趣模型是個(gè)性化服務(wù)的基礎(chǔ)和核心,它不僅是用戶個(gè)體的興趣描述信息,而且是一種面向算法的、具有特定數(shù)據(jù)結(jié)構(gòu)的和形式化的用戶行為描述。相應(yīng)地,用戶興趣建模是指從有關(guān)用戶興趣和行為的信息(如瀏覽內(nèi)容、瀏覽行為、背景知識(shí)等)中歸納出可計(jì)算的用戶興趣模型的過程。
二、興趣分類參考模型
興趣分類參考模型主要用于區(qū)分用戶的不同興趣類別。可以采用開放式目錄管理系統(tǒng)ODP(Open Directory Project)的分類層次結(jié)構(gòu)來組織表示用戶所有可能具有的廣泛意義上的興趣,由此定義的興趣具有等級(jí)層次的結(jié)構(gòu)特性(這是一種樹型結(jié)構(gòu)),即上層(興趣父類)是對(duì)下層(興趣子類)的共同屬性的概括。在用戶興趣參考模型中,可以使用ODP分類層次中的某一層的所有類別作為對(duì)興趣的分類描述。并把該層之下的后代子類作為它的特征詞。
三、用戶興趣模型
用戶興趣模型也用與興趣分類參考模型相似的樹型結(jié)構(gòu)來表示,這樣可以適應(yīng)用戶興趣的時(shí)變性和局部關(guān)注性,本文把這種用戶興趣模型稱為用戶興趣樹,顯然,用戶興趣樹只有部分興趣類別和部分特征詞。為形式化描述用戶興趣模型,引入以下定義。
接著我們比較了各類術(shù)語的平均相似度,如上圖1所示。圖中顯示在術(shù)語集中與音樂相關(guān)的術(shù)語的平均相似度比計(jì)算機(jī)網(wǎng)絡(luò)與通訊相關(guān)的術(shù)語的平均相似度稍低,而比信息處理相關(guān)的術(shù)語的平均相似度要高。這與表2所示的數(shù)據(jù)是相符合的,因此表明算法1在映射術(shù)語的興趣類上是有效的。
七、結(jié)論
本文在引入興趣分類參考模型的基礎(chǔ)上,建立了用戶興趣樹,并把它形式化為用戶興趣向量;然后定義了興趣類、興趣特征詞集和興趣集,基于這些概念,本文提出了一個(gè)簡單有效地實(shí)現(xiàn)用戶查詢到興趣類的映射算法。最后給出了該算法有效性的實(shí)驗(yàn)結(jié)果。
基金項(xiàng)目:江西省科技廳2006年科技攻關(guān)項(xiàng)目(贛科發(fā)計(jì)字(2006)185號(hào))。
(作者單位:井岡山大學(xué)信息科學(xué)與傳播學(xué)院)
“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文”