鄒依彤,王紅霞
(沈陽理工大學信息科學與工程學院,遼寧沈陽,110159)
推送服務主要體現為如下三種形式:RSS頻道推送、郵件推送、推送代理推送。
RSS也稱之為聚合RSS,全稱是Really Simple Syndication,是一種很受歡迎的資源共享應用,同時也是資源共享模式的延伸,最早的RSS服務器就具備了較為完善的服務推送功能,用戶無需自己手動輸入搜索內容,另一方面,在時效性方面,RSS也能夠根據用戶的需求實時的更新所需要的信息。
是指將用戶感興趣的信息以電子郵件的形式推送給用戶,用戶也可以選擇閱讀、下載或刪除推送的消息,同時底層的服務及協議均由基本的電子郵件服務提供商提供。
這種方式需要在一定程度上依賴用戶,用戶需要首先描述自己的需求,然后服務器把這份請求傳遞給推送代理,將用戶的需求信息傳送至查詢代理,篩選信息的所有工作都交由查詢代理來完成。因為這種方式需要用戶的干預,因此智能性還有待提高。
首先建立文本數據庫,這個步驟又可以細分為:首先選擇要使用的文檔,然后確定對這些文檔所做的操作,構造出文本的模型,進而生成文檔的邏輯視圖。之后對生成的邏輯視圖建立倒排索引。在推送之前還需對推送進行預處理,如根據用戶的反饋進行實時的調整,在獲得結果之后,還會根據用戶的感興趣程度對結果進行排序,最后反饋給用戶。整個過程中,為了提高工作效率,必須先對搜索范圍內的文檔進行文本預處理,使其成為關鍵詞類的倒排文件,建立倒排文件的流程如下:詞法、語法分析→刪除無用詞匯→詞干提取→選擇關鍵詞作為索引詞。
這一步驟主要是對詞語的切分,主要采用的中文分詞方法有:最佳匹配法、反向最大匹配法、逐詞遍歷法、正向最大匹配法、設立切分標識法。這幾種方式由于正向最大匹配法原理簡單,而且具有更大的應用范圍,因此,這里使用正向最大匹配法來實現詞語的切分。
本步驟的主要目的是進行信息過濾,其目的是把不相關或相關程度較低的文檔過濾掉,并將剩下的文檔按照與用戶興趣相似的程度進行排序。信息過濾的流程如下:根據用戶興趣關鍵字搜索并返回一批文檔,然后將文檔預處理,過濾掉無用的及其他干擾信息,然后計算該文檔向量與用戶興趣文檔的相似程度,判斷相似度是否大于某一閾值,將符合條件的結果反饋給用戶。
首先根據用戶的反饋行為,計算每個頁面的“興趣度”,然后用戶瀏覽的頁面統一用tf/tdf的方法產生每個文件的特征詞向量,即1P。之后修改1F中的每個特征詞 ijK 的權重 ijKW ,產生新的文件向量,將所有文件向量中的相關特征詞按權重和排序,產生新的User Profile。最后將 Fi作為輸出,Ii( W)作為期望的輸出,從而訓練和更新興趣模型。
向量模型中的權重是根據單詞出現的頻率定義的,現在普遍使用的權重計算方法是:

從上面的公式可以知道,當詞條在文章中出現的次數越多,權重值也就越大。
由于用戶的感興趣程度是一個抽象的概念,因此考慮對其進行簡單的量化,把用戶對推送結果的反饋分為五個等級:設置很不感興趣的值為-2,不感興趣的值為-1,一般為0,感興趣為+1,很感興趣為+2,根據用戶的評價值,對用戶模型進行學習、反饋和更新。
反饋學習的公式為:P=P+α×*f*D,其中,P為用戶興趣的矢量表示,D為用戶評價文檔的矢量表示,根據用戶的相關反饋信息,不斷調整用戶的興趣模型,使它能夠更精確地描述用戶的興趣和需求。
本體在用戶興趣層面上詳細描述了概念模型和詞與詞之間的語義關系,有利于邏輯推理的語義推導,有利于建立用戶的個性化興趣模型,也為根據相似用戶進行推薦提供了基礎。本體用戶模型的形式化表示為:OUM={PI,C,D,S},其中,PI表示用戶個人信息,用于標識區分各個用戶,C={ 1C,, 2C , 3C ,… nC }表示領域本體中用戶感興趣的概念集合;D={1D,2D,3D,…表示用戶對集合C中所有概念的興趣度集合,表示集合C中所有兩兩概念之間的語義相似度。其中,每個元素表示 C i和 C j之間的語義相似度。
實驗對326個已登錄的用戶使用1000部電影標本進行實驗,主要測試服務檢索和主動推送性能,其中,服務檢索方面的性能通過查全率和查準率兩個方面進行刻畫;主動推送性能利用推送的全面性和多樣性來表達,實驗結果證明:針對服務檢索,引入本體后的模型與傳統的推送服務相比,有明顯的提高,檢索的服務質量也有明顯的提升;另一方面,模型對個性化服務的質量、推送的多樣性也有了明顯的提高。