韓曉吉 劉鳳鳴
山東師范大學管理科學與工程學院 山東 250014
信息在開放和互動的網絡環境中增長越來越快,同時也出現了信息過剩,知識難獲取的狀況。個性化搜索引擎針對不同的用戶,利用其背景知識、興趣特征等多種信息,對其檢索詞和檢索結果進行分析和提煉后再呈現給用戶,提高檢索結果的精準度和用戶的滿意度,節省用戶在檢索結果處理上所花費的精力。用戶興趣模型是用來獲得、存儲、管理用戶需求及其興趣特征,描述用戶潛在的需求及興趣的模型,它不僅僅是用戶興趣的一般描述,而是面向算法、具有特定數據結構、形式化的知識,它是個性化檢索的關鍵。由于用戶興趣模型建立之初缺乏完整的用戶描述,系統所獲取用戶興趣信息的相關度和準確度低等因素,所以最初建立的用戶興趣模型不能完全反應用戶的興趣需求;而且用戶興趣隨環境和時間的變化會不斷地發展變化,表現在模型中就是用戶興趣產生了漂移;長久不用的興趣知識會造成數據冗余,不僅會浪費存儲空間,增加計算的復雜度,而且新更新的知識與之前的類似知識會產生沖突。所以用戶興趣模型的更新在個性化檢索系統中尤為重要,它決定了系統對用戶的適應度,也決定了系統的服務質量。本文在闡述用戶興趣模型更新機制后,基于艾賓浩斯遺忘原理提出了一種新的用戶興趣模型更新機制。
用戶興趣更新是指在用戶興趣模型建立之后,對模型增加新獲取的用戶興趣知識或者刪除過時不用的用戶興趣知識。更新用戶興趣模型可以降低模型的信息存儲量,減少模型中的數據冗余,簡化計算復雜度,并提高計算的精度;即使更新的用戶興趣模型能夠使個性化檢索系統更好的適應用戶,提高服務質量。一些建模方法可以基于模型表示技術的特點來更新,如機器學習通過歸納和分析方法來更新、神經網絡通過增加和刪除無效的神經元來更新、遺傳算法通過遺傳優化染色體來更新;也有一些模型需要系統和用戶一起來更新模型,如基于主題、關鍵詞列表以及空間向量表示法就可以通過修改用戶興趣關鍵詞或者關鍵詞權重的方式來更新,因為本身這些模型興趣數據的獲取就有來源于用戶的部分,用戶所提交的數據也占據了模型的很大比例。但是所有模型的更新都要涉及到兩個方面:用戶興趣漂移和更新用戶興趣模型,但是上面所介紹的用戶興趣的表示技術卻不能包含上面的兩個方面,他們只有把那兩個方面都做好的基礎上才能基于自己的特點來更新用戶興趣模型。有關用戶興趣漂移研究較多,其中包括漂移概念研究、興趣變化規律研究、興趣漂移模型研究、興趣漂移機制研究以及興趣跟蹤研究等。1986年Schlimmer和Granger第一次建立了可以更新的用戶興趣模型STAGGER,這是一個逐漸的學習系統,它能夠動態的追蹤用戶的變化,基于貝葉斯網絡將用戶興趣分為感興趣和不感興趣兩種,通過增加新的屬性節點和調整興趣之間的鏈接權重來更新用戶興趣模型。1994年Mitchell 等使用一種軟件助手來安排會議,這種軟件采用機器學習方法來獲取用戶對會議安排的興趣,學習方法使用至少包含180個樣本的時間窗來快速的適應用戶的興趣,這180個樣本由新產生的用戶興趣樣本與之前存儲在模型之中的舊樣本一起組成,這種機制主要基于這些樣本帶來的測試來決定用戶興趣是否發生了偏移。1995年Moloof和Michalski提出基于遺忘部分興趣的漸進遺忘機制來更新用戶興趣模型,這種更新機制是選擇在興趣描述邊界的案例,然后將現在對用戶興趣的相關度小的或者獨立的樣本移除用戶興趣模型。這種方法用基于時間的遺忘機制將一些超過時間閾的部分用戶興趣模型移除,從而實現更新用戶興趣模型。1996年 Widermer和Kubat提出的FLORA系統引入了遺忘技術,這種遺忘技術是通過可調節的窗口來實現的,所謂遺忘就是刪除達到遺忘閾的用戶興趣數據,窗口大小和遺忘頻率是假設的,基于這種假設對模型做啟發式的動態更新。1997年Widermer提出了基于元學習方法更新用戶興趣模型的方法,這種方法假設用戶的背景知識以及用戶現在感興趣的知識能夠預測用戶下一次要檢索的知識,而且提出了2級學習機制,1級是用元學習方法檢索用戶興趣漂移,1級是將用戶的背景知識和現有興趣知識信息用在學習過程中。經證明使用2級學習機制可以很好的對用戶興趣模型進行更新。1998年Harrie 、Sammut以及Horn使用元學習方法識別潛在的用戶背景,這種方法假設用戶興趣在相當長的時間內是穩定的,它使用批處理學習機制與粗集方法來檢測用戶興趣的漂移。1998年Grabtree和Soltusiak 通過監控用戶瀏覽WEB網頁和使用電子郵件的習慣來做為更新用戶興趣模型的依據,并使用粗集方法來檢測用戶興趣的更改,他們的研究表明用戶興趣可以通過測量用戶興趣度在一段時間內的相似度來查看興趣是否發生了改變。1999年Billsus和Pazzani引入智能Agent來更新用戶興趣模型,首先要將用戶興趣分為長期和短期兩類,短期興趣模型只要通過觀察用戶最近的行為就能做出更新與否的決策,但是從長期興趣模型需要逐漸的來更新。2000年Ivan Koychev改進了時間窗方法,它使用一種標記測試來感測用戶的興趣漂移,然后通過調整時間窗的窗口大小,目的是最大化的提高對最近用戶興趣數據分類的準確性。同年Ivan Koychev提出了另外一種漸進遺忘機制,并給出了遺忘函數W=f(t),他將每一個樣本都賦予一定的權重,權重的大小隨著時間會不斷變化,當達到一定的權重閾值時候,這個用戶興趣就要更新。2003年Abreu在虛擬地圖的應用中引入遺忘機制,并使用 ED方法改進了遺忘機制在用戶興趣模型中的更新效果。2007年Yalcin指出了單獨的VSM無法更新用戶興趣模型,所以他們引入了Learn++算法來支持興趣漂移,綜合的 VSM 可以很好的適應用戶興趣的變化。2008年Yingrong li定義了一種UChoo的方法來更新用戶興趣模型,UChoo方法也是定義對每個興趣樣本都定義了以個權重描述,這個權重描述使得最近的用戶興趣比時間長久的用戶興趣更重要一些,反映在權重上值就更大一些。
假設用戶興趣模型已經建立起來,這時候不需要用戶提供興趣知識,系統使用機器學習方法可以獲取用戶的興趣信息。但是系統并不知道用戶的興趣是不是改變了,如果改變了新獲取的用戶興趣數據該怎么與原來的用戶興趣數據融合在一起;系統對那些過時的,用戶不在感興趣的樣本該怎么處理才能達到最好的服務效果。之前學者們大多都通過時間窗方法和遺忘機制來解決這個問題。因為用戶興趣模型是通過用戶描述文件(User Profile)來表示用戶興趣知識的,而用戶描述文件中的用戶興趣是以分類的方式聚集在一起的。如果將用戶的興趣分為長期興趣和短期興趣兩種,短期興趣由于影響因素比較的多,更新比較快,時間窗方法將是一種比較好的解決方式,時間窗方法應用的基礎是用戶興趣是以用戶最近瀏覽序列來體現的,通過瀏覽序列以及瀏覽內容可以看出用戶興趣是否發生了變更。長期興趣一般比較穩定,雖然也存在著影響因素,但是衰減比較的慢,學者們更多的是采用遺忘機制來更新長期興趣。
更新是用戶興趣模型的重要功能,模型只有一直獲取用戶的興趣數據,才能保證系統對用戶的適應性,正因如此模型的數據量才會不斷地增大。根據帕累托法則,20%的重點信息能夠產出80%的決策結果,所以只需要保留重要的,與用戶下一次檢索密切相關的信息,這樣就可以把長久不用的興趣信息更新掉,從而減小模型的信息儲存量。用戶的興趣是否被模型更新取決于與之聯系的事件的數目、它所涉及的內容與用戶的相關度、時間以及現在所能表現用戶當前興趣的準確度等因素。對用戶興趣模型來說,相對于獲取用戶興趣數據是主動,用戶興趣的更新則是被動的。也就是說模型能夠主動去選擇是否獲取并存儲用戶的某一興趣,而不能選擇去更新用戶的某一興趣,因為系統很難判斷當前的用戶興趣是否產生了漂移,也不知道獲取的信息將怎么替代過時的信息。用戶興趣模型更新的這些特點與人腦的遺忘機制很相似。人腦總是只保存最有意義和最經常使用的那部分數據,大量的次要信息在長時間不使用后會被慢慢遺忘,這種遺忘的機制使得大腦總是能適應不斷增長的信息處理工作,更快地提取到最有價值的那部分數據。德國心理學家赫爾曼.艾賓浩斯(Hermann Ebbinghaus)認為遺忘的速度在記憶緊接著的過后最快,然后慢慢放緩,直到遺忘的停止。但此時記憶的內容不到原先的30%。他認為“記憶與遺忘是時間的函數”心理學研究認為,并根據實驗結果繪成遺忘曲線,即著名的艾賓浩斯遺忘曲線。如圖1所示。

圖1 艾賓浩斯遺忘曲線
從圖1可以看出人的遺忘是有規律的,遺忘的進程并不是均衡的,而是先快后慢的方式,可以認為在遺忘最快的那段時間大腦中所保留的知識稱為短期記憶,遺忘到最后剩余的不足30%就幾乎是穩定的長期記憶了。心理學研究表明,人的興趣對應于記憶也可分為長期興趣和短期興趣。興趣的衰減同記憶一樣也是時間的函數,但是衰減的時間并不一致,衰減的規律也有所區別,但是大致是相同的。本文則基于艾賓浩斯遺忘原理給出假設,在前人研究的基礎上給出自己對興趣漂移的觀點。
檢測用戶興趣漂移是用戶興趣模型更新重要的一個環節,因為如果興趣發生漂移,當前所獲取用戶的興趣知識跟用戶描述文件里存儲的知識就是相同的,如果加入就會產生數據冗余,增加了用戶描述文件的存儲量,同時也增加了對用戶下一次檢索而做的興趣計算的復雜度。只有在判定用戶的興趣發生了變更,才能去更新用戶描述文件。本文介紹了之前學者們對用戶興趣漂移做出的研究,學者們提出的研究都很有建樹,同時也加快了用戶興趣漂移研究的進程。筆者發現前人的研究都集中在了用戶興趣的預測,但忽略了預測的驗證。依據艾賓浩斯的遺忘曲線我們可以得到記憶的遺忘是有規律的,對應于記憶的衰減也是符合規律的,而且在正常狀況下,這種規律將是一種遞減函數。基于這樣的假設筆者提出基于艾賓浩斯遺忘規律的前驗用戶興趣漂移。獲取當前的用戶興趣之后加入到用戶描述文件之中,如果新生成的興趣衰減曲線符合系統設置的閾值,那么表明興趣并沒有發生漂移,這里我們使用漸進遺忘機制,就是將描述用戶興趣的關鍵詞賦予權重,權重的大小由衰減函數隨著時間計算得出。如果發現新生成的興趣衰減函數不符合常態,已經超出了系統設定的閾值,那么可以判定用戶的興趣發生了漂移。這個時候我們將重新為用戶的新興趣建立用戶興趣描述文件。
用戶興趣模型的更新需要分為兩種方式:修改興趣權重和重建用戶描述文件。前者是用戶的興趣發生了衰減,但是并未發生漂移,后者是用戶興趣發生了漂移。對于更新用戶興趣模型的研究,大多學者都在自己研究的基礎上提出了樣本數量的問題,樣本數量決定了用戶興趣在整個模型中的地位,同時也決定了用戶興趣的性質。也就是量變會引起質變。顯然本文提出的這兩種更新方式都是很宏觀的,沒有具體的給出更新數量。現在的更新的研究可以分為三種:全部更新,新的興趣知識全部加入到用戶興趣模型,過時的興趣知識全部刪除;部分更新,也就是漸進遺忘機制,將當前興趣模型加入的同時,將處于興趣另一個邊界的興趣知識,也就是時間隔得最久的知識更新掉;全部加入,同時保留用戶的全部興趣知識。顯然第一種和第三種都不符合本文的意向,想要=應用于實際也不太現實。對于第二種部分更新的方式,有學者采用黃金分割法,也有學者采用線函數,還有20/80的方法來分。兩外基于時間窗方法的研究者在自己的試驗中也給出了相應的更新數量,Ivan Koychev就得出了130的最優值,但是這些也只是基于在個人系統的研究數值。本文基于學者們的研究成果,提出基于遺忘百分比的更新。也就是根據遺忘曲線上的遺忘百分比,將模型中的興趣知識相應的更新。這種方法的優點是簡單易行,但是基于每個人的興趣衰減規律的基礎上的。因為艾賓浩斯提出的遺忘曲線是在統計大量不同人的遺忘數據之后生成的一種曲線,從而這種曲線具有共性的群體規律,此遺忘曲線并不考慮接受實現個人的個性特點,而是尋求處于平衡點的遺忘規律。因為我們的生理特點、生活經歷不同,可能導致我們有不同的興趣習慣、興趣特點。我們要根據每個人的不同特點,尋找到屬于自己的興趣衰減方式。
本文在分析艾賓浩斯遺忘原理的基礎上,提出對應的用戶興趣遺忘機制,并基于前人研究的基礎上,基于艾賓浩斯遺忘規律從用戶興趣漂移和更新用戶興趣模型兩個方面的提出前驗用戶興趣漂移和基于遺忘百分比的更新算法。艾賓浩斯遺忘曲線只是時間的函數,對于其他的影響因素并沒有涉及,本文也只是基于興趣時間來更新用戶興趣模型。
[1]Koychev I,Lothian R.Tracking.Drifting concepts by time window optimisation[M].Research and Development in Intelligent Systems XXII.2006.
[2]Abreu,A,Correia,L.An hybrid aping approach with place forgetting[J].42nd IEEE Conference on Decision and Control.2003.Proceedings.
[3]Yalcin.A,Erdem.Z,Gurgen.F.Ensemble based incremental SVM classifiers for changing environments[J].22nd international symposium on Computer and information sciences.2007.
[4]Yingrong Li,Yang Wei,Anastasiya Kolesnikova,Won Don Lee.A New Gradual Forgetting Approach for Mining Data Stream with Concept Drift [J].International Symposium on Information Science and Engieering.2008.
[5]宋麗哲,牛振東,余正濤,來瀚濤,董祥軍.一種基于混合模型的用戶興趣漂移方法[J].計算機工程.2006.
[6]郭新明,弋改珍.混合模型的用戶興趣漂移算法[J].智能系統學報.2010.
[7]Koychev.I,Schwab.I.Adaptation to Drifting User's Interests.In proc.of ECML2000 Workshop: Machine Learning in New Information Age.2000.
[8]Mladenic D.Text-learning and Related Intelligent Agents.IEEE Intelligent Systems 1999.
[9]Conlan.O,Wade.V,Bruen.C,Grgan.M.Multi-model metadata driven approach to adaptive hypermedia services for personalized eLearning [J].Adaptive hypermedia and adaptive web-based systems.100–111.Springer,Berlin.2002.
[10]Peter Eberle.Christian Schwarzinger,Christian Starry.User modeling and cognitive user support: towards structured development[J].Univ Access Inf Soc.2010.